feedforward neural networks untuk pemodelan...

FEEDFORWARD NEURAL NETWORKS UNTUK PEMODELAN RUNTUN WAKTU

OLEH :

SUHARTONO

UNIVERSITAS GADJAH MADA YOGYAKARTA

2007


Disertasi untuk memperoleh Derajat Doktor dalam Ilmu Matematika pada

Universitas Gadjah Mada

Dipertahankan di hadapan Dewan Penguji Sekolah Pascasarjana

Universitas Gadjah Mada

Pada tanggal: 25 September 2007

oleh

Suhartono

Lahir

di Malang, 29 September 1971

iii

Prof. Drs. H. Subanar, Ph.D. Promotor

Prof. Drs. Suryo Guritno, M.Stat., Ph.D. Ko promotor

iv

PERNYATAAN PROMOVENDUS

Dengan ini saya menyatakan bahwa dalam Disertasi ini tidak terdapat

karya yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu

Perguruan Tinggi, dan sepanjang pengetahuan saya juga tidak terdapat karya

atau pendapat yang pernah ditulis atau diterbitkan oleh orang lain, kecuali yang

secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka.

Yogyakarta, 27 September 2007

Yang menyatakan,

Suhartono

v

When the Lord created the world and people to live in it − an enterprise which, according to modern science, took a very long time − I could well imagine that He reasoned with Himself as follows: “If I make everything predictable, these human beings, whom I have endowed with pretty good brains, will undoubtedly learn to predict everything, and they will thereupon have no motive to do anything at all, because they will recognize that the future is totally determined and cannot be influenced by any human action. On the other hand, if I make everything unpredictable, they will gradually discover that there is no rational basis for any decision whatsoever and, as in the first case, they will thereupon have no motive to do anything at all. Neither scheme would make sense. I must therefore create a mixture of the two. Let some things be predictable and let others be unpredictable. They will then, amongst many other things, have the very important task of finding out which is which.”

Small Is Beautiful E. F. SCHUMACHER

Untuk :

Istriku tercinta Siti Azizah, Anak-anakku tersayang

Alivia Kirana Hartonoputri , Vanissa Farhania Hartonoputri

vi

PRAKATA

Dengan Nama Allah Yang Maha Pengasih lagi Maha Penyayang.

Puji syukur kepada Tuhan Yang Maha Kuasa atas segala rahmat dan

karunia yang telah dilimpahkan, sehingga penulisan disertasi dengan judul

“FEEDFORWARD NEURAL NETWORKS UNTUK PEMODELAN RUNTUN WAKTU”

dapat terselesaikan dengan baik. Disertasi ini disusun untuk memenuhi sebagian

persyaratan guna memperoleh derajat Doktor dalam ilmu Matematika, Program

Pasca Sarjana Universitas Gadjah Mada.

Pada kesempatan ini, penulis mengucapkan terima kasih yang sedalam-

dalamnya kepada:

1. Prof. Drs. H. Subanar, Ph.D. dan Prof. Drs. Suryo Guritno, M.Stat., Ph.D.

sebagai Tim Pembimbing Program S3 Jurusan Matematika UGM, yang telah

membimbing, memberikan arahan dan dorongan selama penelitian dan

penulisan disertasi.

2. Tim Penilai dan Tim Penguji yang memberikan kritik dan saran untuk

penyempurnaan materi dan penulisan disertasi.

3. Dr. Toni Bakhtiar, S.Si., M.Sc. dari Jurusan Matematika, Institut Pertanian

Bogor, yang selalu memberikan bantuan kepustakaan khususnya soft journal

dari University of Tokyo.

4. Rektor Institut Teknologi Sepuluh Nopember dan Direktorat Jendral

Pendidikan Tinggi yang telah memberikan kesempatan dan pendanaan untuk

S3 kepada penulis.

5. Istri dan anak-anak tercinta, Alivia dan Vanissa, yang dengan sabar selalu

memberikan dukungan sampai disertasi ini dapat terselesaikan. Nenek,

bapak dan ibu yang selalu mendoakan kelancaran studi penulis.

vii

6. Drs. Brodjol Sutijo S.U., M.Si., Dra. Sri Rezeki, M.Si., Dra. Dhoriva Urwatul

Wutsqa, M.Si., dan Dra. Ema Carnia, M.Si., sebagai kandidat Doktor

Matematika yang telah menjadi rekan seperjuangan penulis selama

menempuh S3.

7. Semua pihak yang telah memberikan bantuan dalam penulisan disertasi ini.

Semoga disertasi ini memberikan manfaat, khususnya bagi per-

kembangan ilmu statistika dan umumnya bagi para pembaca.

Yogyakarta, 27 September 2007

Penulis,

Suhartono

viii

DAFTAR ISI

hal.

JUDUL, NAMA, TAHUN ............................................................................. i

DERAJAT .................................................................................................... ii

PERSETUJUAN .......................................................................................... iii

PERNYATAAN PROMOVENDUS .............................................................. iv

PERSEMBAHAN ........................................................................................ v

PRAKATA ................................................................................................... vi

DAFTAR ISI ................................................................................................ viii

ARTI LAMBANG DAN SINGKATAN .......................................................... xi

DAFTAR GAMBAR ..................................................................................... xiv

DAFTAR TABEL ......................................................................................... xvi

INTISARI ..................................................................................................... xvii

ABSTRACT ................................................................................................. xix

BAB I PENDAHULUAN ............................................................................. 1

1.1 Latar Belakang ............................................................................ 1

1.2 Perumusan Masalah ................................................................... 5

1.3 Batasan Penelitian ...................................................................... 6

1.4 Tujuan Penelitian ........................................................................ 7

1.5 Tinjauan Pustaka ........................................................................ 7

1.5.1 Konsep Dasar pada Analisis Runtun Waktu ................... 9

1.5.2 Neural Networks untuk Analisis Runtun Waktu .............. 11

1.5.3 Outline Disertasi ……………………………….................. 16

BAB II ANALISIS RUNTUN WAKTU ......................................................... 18

2.1 Proses Autoregressive-Moving Average (ARMA) ...................... 18

2.2 Estimasi Parameter Model ARMA .............................................. 22

2.2.1 Estimasi Yule-Walker ..................................................... 22

2.2.2 Estimasi Maximum Likelihood dan Least Squares ......... 24

2.3 Teori Asimtotis ............................................................................ 27

ix

2.3.1 Konvergen Hampir Pasti (Almost Sure Convergence) … 28

2.3.2 Konvergen dalam Probabilitas ........................................ 28

2.3.3 Konvergen dalam Mean ke r, r > 0 ................................ 32

2.3.4 Konvergen dalam Distribusi ............................................ 32

2.3.5 Teorema Limit Pusat dan Hasil-hasil yang Berkaitan ..... 36

2.4 Sifat Normalitas Asimtotis Estimator Model ARMA .................... 39

2.4.1 Sifat Estimator Yule-Walker ............................................ 39

2.4.2 Sifat Estimator Maximum Likelihood dan Least Squares 41

BAB III FEED FORWARD NEURAL NETWORKS .................................... 44

3.1 Algoritma Backpropagation ........................................................ 47

3.2 Konsistensi Estimator Backpropagation ..................................... 54

3.3 Sifat Normalitas Asimtotis Estimator Backpropagation .............. 59

3.4 Uji Hipotesa untuk Parameter Model Neural Networks .............. 64

BAB IV FFNN UNTUK PERAMALAN RUNTUN WAKTU ......................... 68

4.1 Uji Nonlinearitas pada Data Runtun Waktu ................................ 69

4.1.1 Penurunan Uji Nonlinearitas Tipe Lagrange Multiplier

(LM) dengan Ekspansi Taylor ........................................ 69

4.1.2 Desain Kajian Terapan Uji Nonlinearitas Tipe Lagrange

Multiplier (LM) dengan Ekspansi Taylor ......................... 77

4.1.3 Hasil Kajian Terapan Uji Nonlinearitas Tipe Lagrange

Multiplier (LM) dengan Ekspansi Taylor ......................... 82

4.2 Prosedur Pembentukan FFNN untuk Peramalan Runtun Waktu 83

4.2.1 Kontribusi Penambahan melalui R2 ................................ 84

4.2.2 Inferensia Statistik dari Kontribusi Penambahan R2 ....... 85

4.2.3 Algoritma Pembentukan Model FFNN: Implementasi

Uji Nonlinearitas, Inferensia Statistik R2incremental dan

Uji Wald ........................................................................... 90

BAB V HASIL EMPIRIS ............................................................................. 94

5.1 Pembentukan FFNN melalui Inferensia R2incremental dan uji Wald .. 95

5.1.1 Hasil Prosedur Backward versi Kaashoek dan Van Dijk .. 95

x

5.1.2 Hasil Prosedur Forward melalui Uji R2incremental untuk

Penentuan Jumlah Unit di Lapis Tersembunyi dan Unit

Input yang Optimal ......................................................... 98

5.1.3 Hasil Prosedur Backward dengan Uji Wald untuk

Pemilihan Unit Input yang Optimal ................................ 101

5.2 Perbandingan Ketepatan Ramalan antara FFNN dan Model

Runtun Waktu Univariat Klasik ................................................... 102

5.2.1 Hasil Perbandingan pada Kasus Inflasi Indonesia ......... 102

5.2.2 Hasil Perbandingan pada Airline Data ............................ 104

5.3 Efek Pemrosesan Awal Data terhadap Ramalan FFNN …......... 107

5.4 Aplikasi FFNN untuk Peramalan Runtun Waktu Multivariat ....... 110

5.4.1 Evaluasi Kondisi Stasioneritas Model GSTAR(11) ......... 112

5.4.2 Evaluasi Penentuan Bobot Lokasi (Spasial) yang

Optimal pada Model GSTAR .......................................... 115

5.4.3 Perbandingan Ketepatan Ramalan antara FFNN dan

Model-model Runtun Waktu Multivariat ......................... 118

BAB VI KESIMPULAN DAN MASALAH TERBUKA ................................. 122

6.1 Kesimpulan ................................................................................. 122

6.2 Masalah Terbuka ........................................................................ 125

RINGKASAN ............................................................................................... 127

SUMMARY ................................................................................................... 149

DAFTAR PUSTAKA .................................................................................... 167

LAMPIRAN ................................................................................................... 177

DAFTAR RIWAYAT HIDUP ......................................................................... 197

xi

ARTI LAMBANG DAN SINGKATAN

tY : variabel respon atau output pada waktu ke-t dalam ℜ

tX : variabel prediktor atau input pada waktu ke-t dalam ℜ

tε : variabel kesalahan random pada waktu ke-t dalam ℜ

)(2 εσ Var= : variansi variabel random ε

),( sr YYCov : kovariansi antara variabel random rY dan sY

)(⋅Zγ : fungsi autokovarians dari tZ

pΓ : matriks kovarians

det( )A : determinan matriks A

IID : independent and identically distributed

IID σ 2(0, ) : independent and identically distributed dengan mean µ dan

variansi 2σ

WN : white noise

WN ),0( 2σ : proses yang white noise dengan mean µ dan variansi 2σ

⋅ : harga mutlak

⋅ : norm

ARIMA : Autoregressive Integrated Moving Average

FFNN : Feedforward Neural Networks

MLP : Multi Layer Perceptrons

VAR : Vector Autoregressive

GSTAR : Generalized Space Time Autoregressive

( )i kx : variabel input sebanyak p , ),,2,1( pi K=

( )ˆ ky : nilai dugaan dari variabel output (target)

k : indeks pasangan data input-target ),( )()( kki yx , nk ,,2,1 K=

xii

hjiji w ,γ : bobot dari input ke- i yang menuju neuron ke- j pada lapis

tersembunyi, dengan qj ,,2,1 K=

,jβ ojw : bobot dari neuron ke- j di lapis tersembunyi yang menuju

neuron pada lapis output, dengan qj ,,2,1 K=

hjj b ,0γ : bias pada neuron ke- j pada lapis tersembunyi, dengan

qj ,,2,1 K=

ob ,0β : bias pada neuron di lapis output

hjf : fungsi aktifasi di neuron ke- j pada lapis tersembunyi

of : fungsi aktifasi pada neuron di lapis output

)(⋅ψ : fungsi aktifasi secara umum pada FFNN atau MLP

: fungsi aktifasi logistik sigmoid

: fungsi aktifasi linear

),( γβw = : bobot-bobot network secara keseluruhan

*w : bobot network yang optimal

nw : estimator untuk w

nw~ : estimator m yang rekursif untuk w

→ ..sa : konvergen hampir pasti (almost sure)

→p : konvergen dalam probabilitas

→d : konvergen dalam distribusi

→r : konvergen dalam mean ke r . .m s→ : konvergen dalam kuadrat mean

)1,0(Ν : distribusi Normal standar

),( 2σµΝ : distribusi Normal mean µ dan variansi 2σ

),( I0Ν : distribusi Normal standar multivariat

),( ΣμΝ : distribusi Normal multivariate mean μ dan variansi Σ

nW : uji statistik Wald

nW : nilai uji statistik Wald

xiii

LM : Lagrange Multiplier

R2incremental : besaran kontribusi penambahan atau koefisien determinasi

tambahan

SSE : Sum of Squares Error (Residual)

SSR : Sum of Squares Regression

MAE : Mean Absolute Error

MAPE : Mean Absolute Percentage Error

xiv

DAFTAR GAMBAR

Gambar 1.1 : Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input,

empat unit neuron di lapis tersembunyi, dan satu unit output

dengan fungsi aktifasi linear pada lapis output

Gambar 1.2 : Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag

variabel dependen sebagai input ( 321 ,, −−− ttt YYY ), empat unit

neuron di lapis tersembunyi, dan satu unit output ( tY ) dengan

fungsi aktifasi linear pada lapis output

Gambar 3.1 : Arsitektur FFNN dengan satu lapis tersembunyi, p unit input, q

unit neuron di lapis tersembunyi, dan satu unit neuron output

Gambar 3.2 : Ilustrasi dari persamaan update bobot-bobot pada lapis output

Gambar 3.3 : Ilustrasi dari persamaan update untuk bobot-bobot pada lapis

tersembunyi

Gambar 4.1 : Arsitektur model neural networks satu lapis tersembunyi pada

persamaan (4.1.4)

Gambar 4.2 : Plot runtun waktu data (2a), dan plot data dengan lag-lagnya,

yaitu 2b dengan lag 1, 2c dengan lag 2, 2d dengan lag 3, dan

2e dengan lag 4, dari data simulasi AR(2)



3e dengan lag 4, dari data simulasi Gerak Acak



4e dengan lag 4, dari data simulasi LSTAR



5e dengan lag 4, dari data simulasi ESTAR-2

xv

Gambar 4.6 : Prosedur pembentukan model melalui inferensia R2incremental

Gambar 4.7 : Prosedur kombinasi inferensia R2incremental dan uji Wald

Gambar 5.1 : Plot runtun waktu dan plot variabel lag (yt-1, yt-2) dari data

simulasi

Gambar 5.2 : Output FFNN(6,6,1) tanpa satu unit variabel lag ,,,( 21 K−− tt YY

)6−tY dibandingkan dengan data aktual

Gambar 5.3 : Output network dengan menambahkan satu unit neuron di lapis

tersembunyi dibandingkan dengan data aktual

Gambar 5.4 : Plot runtun waktu inflasi Indonesia, Januari 1999 – April 2005

Gambar 5.5 : Plot runtun waktu data jumlah penumpang pesawat internasional

Gambar 5.6 : Plot runtun waktu dari data simulasi

Gambar 5.7 : Arsitektur FFNN-GSTAR(11) dengan satu lapis tersembunyi,

6 unit input, q unit neuron di lapis tersembunyi, dan satu unit

neuron di lapis output

Gambar 5.8 : Arsitektur FFNN-VAR(1) dengan satu lapis tersembunyi, 3 unit

input, q unit neuron di lapis tersembunyi, dan 3 unit neuron di

lapis output

xvi

DAFTAR TABEL

Tabel 4.1 : Hasil perbandingan power uji Terasvirta dan uji White pada

keenam model simulasi (1000 kali pengulangan)

Tabel 5.1 : Hasil-hasil penentuan jumlah unit yang optimal di lapis tersem-

bunyi dengan prosedur backward versi Kaashoek dan Van Dijk

Tabel 5.2 : Hasil-hasil penentuan unit input yang optimal dengan prosedur

backward versi Kaashoek dan Van Dijk

Tabel 5.3 : Hasil-hasil penentuan jumlah unit neuron yang optimal di lapis

tersembunyi dengan prosedur forward melalui uji R2incremental

Tabel 5.4 : Hasil-hasil penentuan unit input yang optimal dengan prosedur

forward melalui uji R2incremental

Tabel 5.5 : Hasil-hasil penentuan jumlah unit di lapis tersembunyi yang

optimal dengan prosedur backward melalui uji Wald

Tabel 5.6 : Ringkasan hasil perbandingan ramalan secara dinamis

Tabel 5.7 : Hasil perbandingan antara kelima model peramalan pada data

training dan testing

Tabel 5.8 : Hasil perbandingan efek pemrosesan awal data untuk FFNN

dan ARIMA pada data simulasi

Tabel 5.9 : Hasil perbandingan efek pemrosesan awal data untuk FFNN

dan ARIMA pada data Airline

Tabel 5.10 : Hasil perbandingan ketepatan ramalan antara GSTAR, VAR,

FFNN-GSTAR, dan FFNN-VAR pada data produksi minyak

xvii

INTISARI


oleh

Suhartono

Neural Networks (NN) merupakan salah satu contoh model nonlinear yang mempunyai bentuk fungsional fleksibel dan mengandung beberapa parameter yang tidak dapat diinterpretasikan seperti pada model parametrik. Salah satu bentuk model NN yang banyak digunakan untuk berbagai aplikasi adalah Feedforward Neural Networks (FFNN). Peramalan data runtun waktu adalah salah satu bidang dari pemodelan statistik yang sejak awal telah banyak digunakan untuk aplikasi model NN. Dalam penerapannya, FFNN mengandung sejumlah parameter (weight) yang terbatas. Bagaimana mendapatkan model FFNN yang sesuai, yaitu bagaimana menentukan kombinasi yang tepat antara banyaknya variabel input dan banyaknya unit pada lapis tersembunyi (yang berimplikasi pada banyaknya parameter yang optimal), merupakan topik sentral dalam penelitian tentang NN.

Bentuk umum FFNN yang digunakan untuk peramalan runtun waktu univariat pada penelitian ini adalah FFNN dengan satu lapis tersembunyi dan satu unit neuron di lapis output. Estimasi parameter (weight) model ini dilakukan dengan menerapkan algoritma backpropagation pada suatu optimisasi Nonlinear Least Squares. Dengan menggunakan beberapa teorema asimtotis dan konvergensi, dapat diturunkan sifat asimtotits estimator yang mengikuti distribusi normal multivariat asimtotis. Sifat asimtotis estimator ini selanjutnya digunakan untuk konstruksi uji statistik Wald yang dapat diimplementasikan untuk inferensia statistik terhadap estimator-estimator model FFNN. Suatu uji statistik baru melalui besaran kontribusi penambahan atau R2

incremental telah dapat dikonstruksi. Uji ini dikonstruksi melalui tiga tahapan utama pemodelan, yaitu model Tereduksi, model Lengkap, dan penentuan uji statistik F .

Kontribusi utama hasil penelitian ini adalah diperolehnya dua prosedur baru untuk pembentukan model FFNN yang diaplikasikan untuk peramalan runtun waktu. Prosedur pertama mengimplementasikan uji statistik F pada R2

incremental dalam skema forward yang dimulai dengan penentuan jumlah unit di lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal. Prosedur kedua menggunakan kombinasi antara uji statistik F pada R2

incremental

xviii

dalam skema forward untuk penentuan jumlah unit di lapis tersembunyi dengan uji Wald dalam skema backward untuk penentuan variabel input yang optimal.

Hasil kajian empiris menunjukkan bahwa algoritma ini dapat bekerja dengan baik dalam menentukan arsitektur FFNN terbaik yang diterapkan untuk peramalan runtun waktu. Hasil-hasil empiris berkaitan dengan perbandingan ketepatan ramalan antara model FFNN dengan model-model runtun waktu yang lain menunjukkan bahwa tidak ada jaminan bahwa FFNN selalu memberikan hasil yang terbaik. Selain itu, kajian empiris tentang efek pemrosesan awal data juga telah dilakukan dan menunjukkan bahwa pemilihan metode pemrosesan awal data yang tepat dapat secara signifikan meningkatkan ketepatan ramalan FFNN. Pada akhirnya, kajian perbandingan ketepatan ramalan pada kasus runtun waktu yang multivariat juga telah diperkenalkan. Hasil perbandingan pada data produksi minyak menunjukkan bahwa FFNN memberikan hasil ramalan yang lebih baik dibandingkan dengan model GSTAR (Generalized Space-Time Autoregressive) dan VAR (Vector Autoregressive).

Kata kunci : Feedforward Neural Networks (FFNN), backpropagation, uji Wald,

R2incremental, pemrosesan awal data, runtun waktu, univariat,

multivariat

xix

ABSTRACT

FEEDFORWARD NEURAL NETWORKS FOR TIME SERIES FORECASTING

by

Suhartono

Neural Networks (NN) is a prominent example of nonlinear model which has a flexible functional form and contains parameters that have no interpretation such as in parametric model. Feed forward neural networks (FFNN) is the most commonly used NN architecture in many fields of application. Time series forecasting has been an important application of NN from the very beginning. In the application of FFNN, it contains limited number of parameters (weights). How to find the best FFNN model, that is, how to find an accurate combination between number of input variables and neurons in hidden layer (imply the optimal number of parameters), is a central topic in NN research.

In this paper, the general form of FFNN used for univariate time series forecasting is FFNN which contains one hidden layer and one unit neuron at the output layer. Parameters estimation of FFNN model is done by implementing backpropagation algorithm on the Nonlinear Least Squares optimization. Asymptotic properties of the estimators that follow asymptotic multivariate normal distribution can be derived by using some theorems of asymptotic and convergence. Then, these properties are used to construct Wald test that can be implemented for statistical inference of FFNN estimators. By using contribution incremental or R2

incremental, the new statistic test has been constructed. This test contains three main steps of modeling, i.e. Reduced model, Full model, and determination of F test statistic.

Two new procedures for FFNN model building applied for time series forecasting are the main contribution of this research. The first procedure implements F test for R2

incremental inference in forward scheme that start from determination of the number of neurons in hidden layer and then selection of the optimal inputs. The second procedure uses a combination between F test for R2

incremental inference in forward scheme for determining the number of neurons in hidden layer and Wald test in backward scheme for selecting the optimal inputs.

xx

The empirical results show that two procedures can work properly for determining the optimal FFNN architecture that is applied for time series forecasting. The comparison results between FFNN and other time series models show that FFNN does not always yield the best forecast. Additionally, the empirical study about the effect of data preprocessing has been also done and the result shows that determination of an optimal data preprocessing can increase significantly the forecast accuracy of FFNN. Finally, the comparison study between FFNN and other time series models on the multivariate case has been also conducted. The comparison result by using the oil production data shows that FFNN yields better forecast than GSTAR (Generalized Space-Time Autoregressive) and VAR (Vector Autoregressive) models.

Keywords: Feed forward Neural Networks (FFNN), backpropagation, Wald test,

R2incremental, data preprocessing, time series, univariate, multivariate.

- 1 -

BAB I PENDAHULUAN

1.1 Latar Belakang

Pemodelan yang digunakan untuk menjelaskan hubungan nonlinear antar

variabel dan beberapa prosedur pengujian untuk mendeteksi adanya keterkaitan

nonlinear telah mengalami perkembangan yang sangat pesat pada beberapa

dekade terakhir ini. Sebagai overview hal ini dapat dilihat antara lain pada tulisan

Granger dan Terasvirta (1993). Perkembangan yang pesat ini juga terjadi dalam

bidang pemodelan statistik, khususnya model-model untuk runtun waktu dan

ekonometrika. Seiring dengan perkembangan komputasi dan meningkatnya

kekuatan komputasi, model nonparametrik yang tidak memerlukan asumsi

bentuk hubungan fungsional antar variabel telah menjadi lebih mudah untuk

diaplikasikan.

Model Neural Networks (NN) merupakan salah satu contoh model

nonlinear yang mempunyai bentuk fungsional fleksibel dan mengandung

beberapa parameter yang tidak dapat diinterpretasikan seperti pada model

parametrik. Penggunaan model NN dalam berbagai bidang terapan secara

umum didasari motivasi hasil matematika yang menyatakan bahwa di bawah

syarat yang tidak terlalu ketat, suatu model NN yang relatif sederhana dapat

digunakan untuk pendekatan semua fungsi Borel yang dapat diukur pada

sebarang derajat akurasi; sebagai contoh hal ini dapat dilihat pada Cybenko

(1989), Funahashi (1989), Hornik dkk. (1989, 1990), dan White (1990).

Pada saat ini banyak penelitian dilakukan secara luas dengan motivasi

adanya kemungkinan untuk menggunakan model NN sebagai suatu alat untuk

menyelesaikan berbagai masalah terapan, antara lain peramalan runtun waktu,

pattern recognition, signal processing, dan proses kontrol. Sarle (1994)

menyatakan bahwa ada tiga penggunaan utama NN, yaitu :

(1). sebagai suatu model sistem syaraf biologi dan kecerdasan,

Bab I. Pendahuluan

2

(2). sebagai prosesor signal real-time yang adaptif atau pengontrol yang di-

implementasikan dalam hardware untuk suatu terapan seperti robot, dan

(3). sebagai metode analisis data.

Wong dkk. (2000) telah melakukan suatu survei literatur secara lengkap

berkaitan dengan penelitian terapan NN dalam bidang bisnis selama periode

1994−1998. Survey ini telah mengidentifikasi sebanyak 302 artikel penelitian

terapan NN yang terdistribusikan pada berbagai bidang terapan, yaitu bidang

akuntansi atau auditing, keuangan, sumber daya manusia, sistem informasi,

marketing atau distribusi, dan pada bidang produksi atau riset operasi.

Dalam perkembangannya, model NN juga telah banyak diterapkan pada

bidang kedokteran. Aplikasi NN pada bidang ini antara lain untuk diagnosa

myocardinal infarction (Baxt, 1991; dan Pazos dkk., 1992), klasifikasi signal EEG

(Reddy dan Korrai, 1992), scan PET (Kippenhan dkk., 1992) dan prediksi

mekanisme efek perkembangan obat kanker (Weinstein dkk, 1992). Selain itu,

Somoza dan Somoza (1993) juga telah menerapkan NN pada bidang psikiatri.

Model Feedforward Neural Networks (FFNN) adalah salah satu bentuk

model NN yang dapat dipandang sebagai suatu kelompok model yang sangat

fleksibel yang dapat digunakan untuk berbagai aplikasi. Bentuk khusus model

FFNN yang pendekatan pemetaan nonlinearnya menggunakan jumlahan bobot

kernel-kernel (fungsi aktifasi) Gauss dikenal dengan Radial Basis Function (RBF)

networks. Beberapa referensi berkaitan dengan konsep dan bentuk model FFNN

secara umum dapat ditemukan di Bishop (1995), Ripley (1996) dan Fine (1999).

Sedangkan beberapa artikel khusus tentang model RBF dapat dilihat pada

Broomhead dan Lowe (1988), Moody dan Darken (1989), serta Poggio dan

Girosi (1990).

Secara statistik, model FFNN merupakan suatu bagian dari kelompok

pemodelan yaitu model regresi nonlinear dan model diskriminan. Referensi yang

lengkap berkaitan dengan perbandingan antara beberapa model NN dengan

model-model statistik yang klasik dan modern dapat dilihat pada Cheng dan

Bab I. Pendahuluan

3

Titterington (1994), Kuan dan White (1994), Ripley (1993, 1994), Sarle (1994),

dan beberapa artikel Cherkassky dkk. (1994).

Dalam penerapannya, FFNN mengandung sebanyak parameter (weight)

yang terbatas. Bagaimana mendapatkan model FFNN yang sesuai, yaitu

bagaimana menentukan kombinasi yang tepat antara banyaknya variabel input

dan banyaknya unit pada lapis tersembunyi (yang berimplikasi pada banyaknya

parameter yang optimal), merupakan topik sentral dalam beberapa literatur NN

yang telah banyak dibahas pada banyak artikel dan banyak buku seperti pada

Bishop (1995), Ripley (1996), Fine (1999), Haykin (1999), atau pada Reed dan

Marks II (1999).

Secara umum ada dua kelompok teknik atau prosedur yang biasanya

digunakan untuk mendapatkan model FFNN terbaik (arsitektur optimal), yaitu

prosedur yang “general-to-specific” atau “top-down”, suatu prosedur yang dimulai

dari model yang besar (komplek) dan kemudian menerapkan suatu algoritma

untuk mereduksi banyaknya parameter (banyaknya unit pada lapis tersembunyi

dan banyaknya variabel input) dengan menggunakan aturan pemberhentian

iterasi tertentu, dan prosedur yang “specific-to-general” atau “bottom-up” yaitu

suatu prosedur yang justru dimulai dari model yang sederhana. Dalam beberapa

literatur NN prosedur pertama lebih dikenal dengan istilah "pruning" (Reed, 1993;

Reed dan Marks II, 1999), sedangkan dalam kerangka pemodelan statistik dapat

dipandang sebagai metode backward. Prosedur kedua lebih dikenal dengan

istilah “constructive learning” dan salah satu yang telah banyak dikenal adalah

cascade correlation (Fahlman dan Lebiere, 1990; Littmann dan Ritter, 1996;

Prechelt, 1997), yang dapat dipandang sebagai suatu metode forward dalam

pemodelan statistik.

Kaashoek dan Van Dijk (2001) memperkenalkan suatu prosedur “pruning”

dengan mengimplementasikan tiga hal, yaitu besaran kontribusi penambahan

(R2incremental), analisis komponen utama, dan analisis secara grafik, untuk

mendapatkan banyaknya unit dalam lapis tersembunyi dan banyaknya variabel

input yang optimal dari suatu model FFNN. Sedangkan Swanson dan White

(1995, 1997a, 1997b) menerapkan kriteria pemilihan model SBIC atau Schwarz

Bab I. Pendahuluan

4

Bayesian Information Criteria pada prosedur “bottom-up” untuk penambahan

banyaknya unit di lapis tersembunyi dan banyaknya input sampai diperoleh

model FFNN yang optimal.

Pada perkembangannya, prosedur statistika inferensia juga diterapkan

dalam penentuan model FFNN yang terbaik. Dalam hal ini konsep uji hipotesa,

distribusi parameter dan penggunaan kriteria kesesuaian model diaplikasikan

untuk mendapatkan model FFNN yang optimal. Terasvirta dan Lin (1993) adalah

kelompok peneliti pertama yang mengaplikasikan prosedur statistika inferensia

untuk mendapatkan banyaknya unit di lapis tersembunyi yang optimal pada

model FFNN dengan satu lapis tersembunyi. Beberapa artikel terakhir tentang

pembentukan model FFNN dengan penggunaan statistika inferensia dapat dilihat

pada Anders dan Korn (1999), dan Medeiros dkk. (2002).

Peramalan data runtun waktu adalah salah satu bidang pemodelan

statistik yang sejak awal telah banyak digunakan untuk aplikasi model NN.

Lapedes dan Farber (1987) merupakan salah satu dari beberapa peneliti

pertama yang menggunakan NN untuk peramalan data runtun waktu.

Selanjutnya, banyak penelitian dilakukan berkaitan dengan prediksi pada data

real runtun waktu; antara lain dapat dilihat pada de Groot dan Wurtz (1991),

Weigend dan Gershenfeld (1993), Swanson dan White (1995), Weigend (1996),

Faraway dan Chatfield (1998), Lisi dan Schiavo (1999), Motiwalla dan Wahab

(2000), Yao dan Tan (2000), Leung dkk. (2000), serta pada Kaashoek dan Van

Dijk (2001, 2002). Secara umum dari beberapa penelitian yang ada tersebut,

fokus utama yang dibahas adalah bagaimana mendapatkan model NN yang

sesuai untuk suatu data runtun waktu. Isu yang sampai sekarang masih

merupakan pertanyaan terbuka dan banyak peneliti lakukan dalam penerapan

model NN untuk pemodelan runtun waktu adalah dalam rangka menjawab

beberapa pertanyaan berikut :

(1). Bagaimana prosedur identifikasi yang tepat untuk menentukan variabel

input awal sebagai kandidat yang sesuai?

(2). Bagaimana cara menentukan variabel input yang tepat?

Bab I. Pendahuluan

5

(3). Bagaimana cara menentukan jumlah unit yang tepat pada suatu lapis

tersembunyi?

(4). Bagaimana sifat-sifat estimator (parameter-parameter) pada model NN?

(5). Apa kriteria (statistik) yang paling tepat untuk mengevaluasi kesesuaian

suatu model NN?

(6). Apa bentuk pemrosesan awal data yang tepat pada NN?

Berdasarkan permasalahan terbuka yang ada berkaitan dengan model

NN, maka penelitian ini dilakukan dengan tujuan umum untuk mempelajari model

NN dalam kerangka pemodelan statistika. Secara khusus, pemodelan statistika

yang akan dibahas lebih banyak difokuskan pada model runtun waktu univariat.

Sehingga secara umum penelitian ini adalah dalam rangka mengkaji pendekatan

NN untuk analisis runtun waktu.

1.2 Perumusan Masalah

Prosedur Box-Jenkins adalah suatu prosedur standar yang biasanya

digunakan dalam analisis runtun waktu dengan model Autoregressive Integrated

Moving Average atau ARIMA. Pada pemodelan NN, ada banyak prosedur

pembentukan model yang telah diperkenalkan oleh beberapa peneliti terdahulu.

Namun, sampai saat ini belum ada satu prosedur yang diterima sebagai suatu

prosedur standar oleh kalangan peneliti NN, khususnya yang diaplikasikan dalam

analisis runtun waktu.

Dengan demikian, permasalahan utama dalam pembentukan model NN

dalam kerangka pemodelan statistik, khususnya model runtun waktu adalah

masih belum adanya suatu prosedur pembentukan model yang standar untuk

mendapatkan model NN terbaik pada suatu data runtun waktu, yaitu mulai tahap

identifikasi, estimasi parameter dan uji hipotesis yang berkaitan dengan

signifikansi parameter, serta tahap cek diagnosa untuk memvalidasi kesesuaian

model melalui suatu kriteria (uji statistik) tertentu. Sehingga masih terbuka luas

untuk dilakukan penelitian lanjut berkaitan dengan model NN dalam kerangka

pemodelan statistik, khususnya model runtun waktu.

Bab I. Pendahuluan

6

Untuk itu dalam penelitian ini fokus permasalahan yang akan diselidiki

peneliti adalah dalam rangka mendapatkan suatu prosedur pembentukan model

NN yang pada akhirnya diharapkan dapat diterima sebagai suatu prosedur yang

standar. Beberapa permasalahan utama yang akan diselidiki untuk mendukung

pembentukan prosedur standar tersebut adalah sebagai berikut :

(1). Pengkajian tentang sifat-sifat estimator (parameter atau weight) model

FFNN untuk pemodelan runtun waktu.

(2). Pengembangan dan pengkajian lanjut tentang kriteria (statistik uji) yang

tepat untuk memvalidasi kesesuaian suatu model FFNN untuk pemodelan

runtun waktu.

(3). Pengkajian dan pengembangan lebih lanjut tentang prosedur pemben-

tukan model FFNN yang optimal (kombinasi yang tepat antara banyaknya

input dan banyaknya unit di lapis tersembunyi) dengan mengimplemen-

tasikan sifat-sifat estimator dan kriteria statistik yang akan diperoleh untuk

pemodelan runtun waktu.

1.3 Batasan Penelitian

Permasalahan yang berkaitan dengan model NN merupakan pertanyaan

terbuka yang begitu luas dan kompleks. Untuk itu dalam penelitian ini perlu

diberikan batasan permasalahan agar penelitian yang akan dikerjakan lebih

fokus sesuai dengan rentang waktu yang direncanakan. Batasan yang diterapkan

pada penelitian disertasi ini yaitu model NN yang dibahas adalah model FFNN

(Feedforward Neural Networks) dengan satu lapis tersembunyi, dan fungsi

aktifasi yang digunakan dalam lapis tersembunyi adalah fungsi logistik sigmoid.

Pemilihan bentuk FFNN ini dimotivasi dari fakta yang menyatakan bahwa bentuk

ini dapat memberikan pendekatan sebarang yang akurat pada sebarang fungsi

dalam berbagai ruang fungsi norm jika dimensi dari ruang bobot adalah cukup

besar (Cybenko, 1989; Funahashi, 1989; Hornik dkk., 1989). Selain itu, per-

bandingan ketepatan ramalan hanya dilakukan dengan model-model runtun

waktu yang linear.

Bab I. Pendahuluan

7

1.4 Tujuan Penelitian

Secara umum penelitian ini terbagi dalam dua kajian, yaitu kajian teori

berkaitan dengan penurunan sifat-sifat estimator (parameter atau weight) model

FFNN dan pengembangan kriteria statistik untuk uji kesesuaian model FFNN,

serta kajian terapan berkaitan dengan implementasi hasil kajian teori untuk

mendapatkan prosedur baru yang diharapkan dapat bekerja optimal untuk

pembentukan model FFNN pada pemodelan runtun waktu. Dengan demikian,

tujuan dari penelitian ini adalah :

A. Kajian Teori

(1). Mengkaji penurunan sifat-sifat estimator yang sesuai untuk parameter-

parameter model FFNN yang diterapkan pada pemodelan runtun

waktu.

(2). Mengembangkan dan mendapatkan statistik uji yang tepat untuk

memvalidasi kesesuaian suatu model FFNN yang diaplikasikan pada


B. Kajian Terapan

(1). Mengembangkan dan mendapatkan suatu prosedur pembentukan

model FFNN yang optimal dengan mengimplementasikan sifat-sifat

estimator (parameter-parameter) model dan statistik uji yang akan

diperoleh untuk pemodelan runtun waktu.

(2). Membandingkan hasil implementasi model FFNN melalui prosedur

yang dihasilkan dalam penelitian ini dengan hasil-hasil implementasi

model-model statistik standar yang biasanya diaplikasikan untuk

peramalan runtun waktu.

1.5 Tinjauan Pustaka

Secara umum analisis runtun waktu menurut Chatfield (2001) mempunyai

beberapa tujuan, yaitu peramalan, pemodelan, dan kontrol. Peramalan berkaitan

dengan problem pembentukan model dan metode yang dapat digunakan untuk

Bab I. Pendahuluan

8

menghasilkan suatu ramalan yang akurat. Pemodelan bertujuan mendapatkan

suatu model statistik yang sesuai dalam merepresentasikan perilaku jangka

panjang suatu data runtun waktu. Perbedaan pemodelan dengan peramalan

adalah peramalan lebih cenderung pada suatu model yang “black-box” untuk

mendapatkan ramalan, sedangkan pemodelan cenderung pada model yang

dapat diinterpretasikan untuk menjelaskan apa yang sedang terjadi berkaitan

dengan hubungan antar variabel pada suatu data runtun waktu. Sedangkan

tujuan untuk kontrol banyak digunakan dalam bidang teknik, khususnya signal

processing.

Pemodelan statistik untuk analisis runtun waktu jika dirunut kebelakang,

diawali oleh Yule (1927) yang memperkenalkan model autoregresi linear (AR)

untuk meramalkan bilangan tahunan sunspot. Sejak itu publikasi berkaitan

dengan analisis runtun waktu berkembang dengan pesat. Sampai tahun 1980,

sebagian besar penelitian terfokus pada model runtun waktu linear, khususnya

kelas model linear Autoregressive Integrated Moving Average (ARIMA). Box dan

Jenkins (1976) mengembangkan suatu prosedur yang lengkap untuk metodologi

model ARIMA yang sampai sekarang digunakan sebagai prosedur standar dalam

pembentukan model runtun waktu linear. Beberapa literatur yang banyak

membahas model ARIMA ini dapat dilihat pada Cryer (1986), Wei (1990) dan

Box dkk. (1994). Selain itu, sifat-sifat yang berkaitan dengan teori statistik untuk

model ARIMA juga telah banyak dianalisis dan dikembangkan oleh beberapa

peneliti, antara lain telah dilakukan oleh Brockwell dan Davis (1991).

Dalam perkembangan analisis runtun waktu, telah banyak diketahui

bahwa banyak fenomena yang menarik dan sederhana seringkali merupakan

fenomena yang nonlinear, yaitu hubungan antara kejadian di masa lalu dan saat

ini adalah nonlinear. Dengan demikian, kelompok pemodelan runtun waktu yang

linear tidaklah cukup dan sesuai untuk kasus-kasus tersebut. Sebagai

konsekuensinya, model-model runtun waktu nonlinear telah menjadi fokus

perhatian utama peneliti runtun waktu pada beberapa tahun terakhir ini.

Beberapa bentuk model nonlinear telah dikembangkan dan diaplikasikan pada

beberapa kasus runtun waktu, dan sebagai overview atau diskusi lanjut hal ini

Bab I. Pendahuluan

9

dapat ditemukan di Tong (1990), Priestley (1991), Lee dkk. (1993), serta Granger

dan Terasvirta (1993).

1.5.1 Konsep Dasar pada Analisis Runtun waktu

Pada bagian ini akan dijelaskan secara ringkas beberapa konsep dasar

pada analisis runtun waktu, berkaitan dengan ide dasar dan beberapa definisi

yang sering digunakan. Secara lebih lengkap hal ini dapat dilihat pada Brockwell

dan Davis (1991).

Runtun waktu adalah suatu deret (barisan) dari pengamatan tY pada

suatu variabel Y , yang tiap-tiap pengamatan dicatat pada suatu waktu tertentu

Tt ∈ . Dalam hal ini T adalah himpunan dari waktu dimana pengamatan-

pengamatan tersebut dilakukan. Jika T adalah suatu himpunan yang diskrit,

maka , TtYt ∈ adalah suatu runtun waktu yang diskrit. , TtYt ∈ merupakan

notasi keseluruhan suatu runtun waktu, dimana tY adalah pengamatan dari

, TtYt ∈ pada waktu ke t . Pada kasus runtun waktu yang diskrit, pengamatan-

pengamatan biasanya diambil pada interval waktu yang sama. Dalam hal ini axis

waktu T diasumsikan sama dengan ℕ = 0,1,2,…, sehingga secara umum untuk

axis waktu T adalah sama dengan ℤ = 0,±1,±2,….

Pendekatan statistik pada analisis runtun waktu dilakukan dengan

menggunakan model-model statistik untuk menjelaskan perilaku dinamis dari

suatu runtun waktu. Hal ini mengasumsikan bahwa suatu runtun waktu di-

bangkitkan dari suatu mekanisme atau model yang stokastik, yang biasanya

didefinisikan dengan suatu persamaan beda yang stokastik. Persamaan beda

yang stokastik terdiri dari suatu persamaan dan beberapa kondisi awal. Hasil

atau solusi dari model ini adalah suatu proses stokastik, yaitu suatu barisan dari

variabel random tY yang didefinisikan pada ruang probabilitas (Ω,ℱ,Р). Untuk

∈ω Ω tertentu, )(ωtY disebut suatu realisasi (sample path atau trajectory) dari

tY . Setiap pengamatan )(ωtY adalah suatu nilai realisasi dari variabel random

tY yang nilai-nilainya diperoleh dalam ruang Euclidean d-dimensi ℝd.

Bab I. Pendahuluan

10

Contoh 1.5.1. Diberikan suatu model linear AR orde pertama

ttt YY εφ += −11 , ,...,2,1=t (1.5.1)

dan 0Y adalah suatu variabel random yang merepresentasikan kondisi awal.

Dalam hal ini tε adalah suatu barisan yang terdistribusikan secara identik dan

independen (IID) dari variabel random yang merepresentasikan gangguan atau

error atau disturbance terms. Penyelesaian tY dari persamaan (1.5.1) adalah

suatu proses stokastik

∑−

=−+=

1

0101

t

tit

ttt YY εφφ , ,...2,1=t . (1.5.2)

Sifat penting untuk analisis runtun waktu adalah proses-proses (stokastik)

tersebut merupakan proses yang stasioner, yaitu fungsi-fungsi distribusinya

secara keseluruhan adalah independen terhadap waktu. Definisi-definisi berikut

berkaitan dengan proses stokastik yang stasioner.

Definisi 1.5.1. (Brockwell dan Davis, 1991) Suatu proses tY dikatakan

stasioner kuat jika ),...,,( 21′

kttt YYY dan ),...,,( 21′+++ hththt kYYY mempunyai

fungsi distribusi bersama yang sama untuk semua bilangan bulat 1≥h dan untuk

semua ∈httt k ,,...,, 21 ℕ.

Proses-proses dengan momen pertama dan kedua yang independen

terhadap waktu juga menjadi perhatian dalam analisis runtun waktu. Definisi-

definisi berikut berkaitan dengan konsep stasioner lemah atau stasioner sampai

orde kedua.

Definisi 1.5.2. (Brockwell dan Davis, 1991) Jika diberikan tY adalah suatu

proses dengan 2tYΕ < ∞ untuk setiap ∈t ℕ, maka tY dikatakan stasioner

lemah (weakly stationary) jika µ=Ε )( tY untuk semua ∈t ℕ dan

),(),( hshrsr YYCovYYCov ++= untuk semua ∈hsr ,, ℕ.

Definisi 1.5.3. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses yang

stasioner lemah (weakly stationary), maka fungsi autokovarians )(⋅Yγ dari tY

didefinisikan sebagai ),()( httY YYCovh +=γ untuk semua ∈ht, ℕ.

Bab I. Pendahuluan

11

Nilai-nilai kesalahan ramalan atau error tε dari suatu model runtun

waktu biasanya diasumsikan sebagai suatu barisan dari variabel random yang

IID. Ketika yang menjadi perhatian adalah proses yang stasioner lemah, nilai-nilai

kesalahan ramalan tε biasanya menggambarkan perilaku white noise dari

sudut pandang orde dua.

Definisi 1.5.4. (Brockwell dan Davis, 1991) Suatu proses tε dikatakan white

noise dengan mean 0 dan varians 2σ , ditulis ),0(WN~ 2σε t , jika dan hanya

jika tε mempunyai mean nol dan fungsi autokovarians

≠==

. jika jika

00,0)(

2

hhh σγ ε

1.5.2 Neural Networks untuk Analisis Runtun waktu

Sejak McCulloch dan Pitts (1943) memperkenalkan suatu model

sederhana dari suatu syaraf nyata dalam otak manusia seperti suatu unit

threshold biner, banyak aktivitas dalam bidang NN yang telah dilakukan dan

dikembangkan. Pada awalnya, NN didesain untuk memodelkan bentuk arsitektur

syaraf pada otak manusia. Penelitian-penelitian pada saat ini secara luas banyak

dilakukan dan dimotivasi oleh adanya kemungkinan menggunakan NN sebagai

suatu instrumen untuk menyelesaikan berbagai permasalahan aplikasi seperti

pattern recognition, signal processing, process control dan peramalan runtun

waktu.

Pada dasarnya, NN merupakan suatu kumpulan dari elemen-elemen

pemroses yang saling berhubungan, yang disebut dengan unit-unit atau syaraf-

syaraf. Frase NN mempunyai arti yang luas dan bervariasi pada bidang-bidang

penelitian yang berbeda, hal ini dapat dilihat pada Bishop (1995). Dalam

penelitian disertasi ini, NN dipandang sebagai suatu obyek matematika atau

secara khusus sebagai suatu model statistik untuk runtun waktu.

Multi-Layer Perceptrons (MLP) yang juga dikenal dengan feedforward

atau backpropagation networks atau FFNN adalah bentuk arsitektur NN yang

Bab I. Pendahuluan

12

secara umum paling banyak digunakan dalam aplikasi di bidang teknik atau

rekayasa. Biasanya, aplikasi NN untuk pemodelan runtun waktu dan signal

processing adalah berdasarkan pada arsitektur MLP atau FFNN.

MLP dapat dipandang sebagai suatu kelas yang fleksibel dari fungsi-

fungsi nonlinear. Secara umum, model ini bekerja dengan menerima suatu vektor

dari input-input X dan kemudian menghitung suatu respon atau output )(XY

dengan memproses (propagating) X melalui elemen-elemen proses yang saling

terkait. Elemen-elemen proses tersusun dalam beberapa lapis (layer) dan data,

X , mengalir dari satu lapis ke lapis berikutnya secara berurutan. Dalam tiap-tiap

lapis, input-input ditransformasi kedalam lapis secara nonlinear oleh elemen-

elemen proses dan kemudian diproses maju ke lapis berikutnya. Akhirnya, nilai-

nilai output )(XY , yang dapat berupa nilai-nilai skalar atau vektor, dihitung pada

lapis output.

Gambar 1.1 adalah suatu contoh bentuk khusus MLP dengan satu lapis

tersembunyi (hidden layer) yang lebih dikenal dengan FFNN dengan satu lapis

tersembunyi. Dalam contoh ini, FFNN terdiri dari tiga input (yaitu 1X , 2X dan

3X ), empat unit neuron di lapis tersembunyi dengan fungsi aktifasi ψ , dan satu

unit output dengan fungsi aktifasi linear.

Dalam arsitektur ini, nilai-nilai respon atau output )(XY dihitung dengan

∑ ∑= =

++=H

j

I

iijijjY

1 100 )()( XX γγψββ (1.5.3)

dengan ),...,,,...,,( 1010 HIH γγβββ adalah besaran-besaran bobot (network

weights) atau parameter-parameter MLP. Bentuk nonlinear dari fungsi )(XY

terjadi melalui suatu fungsi yang disebut fungsi aktifasi ψ , yang biasanya fungsi

yang halus atau smooth seperti fungsi logistik sigmoid

ZeZ

−+=

11)(ψ . (1.5.4)

Pemilihan bentuk MLP dengan satu lapis tersembunyi dan fungsi linear

pada lapis output (tidak ada fungsi aktifasi nonlinear pada lapis output) ini

dimotivasi dari fakta yang menyatakan bahwa bentuk ini dapat memberikan

Bab I. Pendahuluan

13

pendekatan sebarang yang akurat pada sebarang fungsi dalam berbagai ruang

fungsi norm jika dimensi dari ruang bobot adalah cukup besar (Cybenko, 1989;

Funahashi, 1989; Hornik dkk., 1989).

Gambar 1.1. Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input, empat unit neuron di lapis tersembunyi, dan satu unit output dengan fungsi aktifasi linear pada lapis output.

Salah satu bidang yang banyak digunakan untuk aplikasi model NN

adalah peramalan suatu data runtun waktu. Lapedes dan Farber (1987) adalah

bagian dari sekelompok peneliti yang mula-mula menerapkan model NN untuk

menganalisis data runtun waktu, yaitu peramalan dari signal nonlinear yang

dibangkitkan dengan komputer. Dalam perkembangan selanjutnya, model NN

telah banyak digunakan untuk prediksi atau peramalan data runtun waktu yang

real, antara lain Weigend dkk. (1990), de Groot dan Wurtz (1991), Tang dkk.

(1991), Weigend dan Gershenfeld (1993), Swanson dan White (1995), Hill dkk.

(1996), Weigend (1996), Faraway dan Chatfield (1998), Lisi dan Schiavo (1999),

Motiwalla dan Wahab (2000), Yao dan Tan (2000), Leung dkk. (2000), Kaashoek

dan Van Dijk (2001, 2002), serta Leung dan Chan (2003). Selain itu, aplikasi

model NN untuk analisis runtun waktu, terutama bidang ekonometrik runtun

Bab I. Pendahuluan

14

waktu, juga mendorong perkembangan beberapa tes untuk uji nonlinearitas

(White, 1989c; Lee dkk., 1993; Terasvirta dkk., 1993).

Aplikasi model NN untuk peramalan runtun waktu memerlukan perlakuan

dari suatu proses yang dinamis. MLP dapat mengakomodasi perilaku dinamis

tersebut dengan memasukkan lag (kejadian sebelumnya) dari variabel respon

atau target, itY − , dalam himpunan input. Hal ini dapat diperoleh dengan

mengganti ),...,( 1 ′= −− ptt YYX dalam persamaan (1.5.3). Bentuk ini selanjutnya

dikenal dengan Model Autoregressive Neural Network (ARNN) dan secara grafik

untuk 3 lag sebagai input dapat dilihat seperti Gambar 1.2. Secara umum bentuk

arsitektur dari model ini adalah sama dengan model ARIMA(p,0,0), dimana

bentuk perbedaannya adalah bentuk fungsi yang mentransfer kejadian-kejadian

masa lalu ),...,( 1 ′−− ptt YY ke kejadian masa sekarang tY adalah nonlinear,

sedangkan pada model ARIMA(p,0,0) adalah fungsi linear. Sehingga seringkali

model AR-NN ini disebut juga dengan model autoregresi yang nonlinear

(Faraway dan Chatfield, 1998).

Dalam perkembangan selanjutnya, arsitektur yang lebih fleksibel telah

pula diperkenalkan dan dikembangkan untuk aplikasi NN pada analisis runtun

waktu, yaitu arsitektur yang mengandung variabel recurrent. Pada arsitektur ini,

selain himpunan beberapa lag variabel respon atau target sebagai input, juga

melibatkan lag-lag dari selisih prediksi target dengan nilai aktual target atau yang

dikenal dengan lag-lag error. Bentuk model semacam ini selanjutnya dikenal

dengan model ARMA-RNN atau Autoregressive Moving Average – Recurrent

Neural Networks. Beberapa artikel berkaitan dengan bentuk model NN yang

mengandung unsur recurrent ini dapat dilihat pada Jordan (1986), Elman (1990),

serta Connor dkk. (1992, 1994).

Model NN adalah model yang dalam penerapannya mengandung

sejumlah parameter (weight) yang terbatas. Bagaimana mendapatkan model NN

yang sesuai, yaitu bagaimana menentukan kombinasi yang tepat antara

banyaknya variabel input dan banyaknya unit pada lapis tersembunyi (yang

berimplikasi pada banyaknya parameter yang optimal) adalah topik sentral yang

banyak menjadi fokus bahasan dalam beberapa literatur NN.

Bab I. Pendahuluan

15

Gambar 1.2. Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag variabel dependen sebagai input ( 321 ,, −−− ttt YYY ), empat unit neuron di lapis tersembunyi, dan satu unit output ( tY ) dengan fungsi aktifasi linear pada lapis output.

Kontribusi utama disertasi ini adalah diperolehnya dua prosedur baru

untuk pembentukan model FFNN yang diaplikasikan untuk peramalan runtun

waktu. Prosedur pertama mengimpementasikan uji statistik F pada R2incremental

dalam skema forward yang dimulai dengan penentuan banyaknya unit di lapis

tersembunyi dan dilanjutkan penentuan variabel input yang optimal. Prosedur

kedua menggunakan kombinasi antara uji R2incremental dalam skema forward untuk

penentuan banyaknya unit di lapis tersembunyi dengan uji Wald dalam skema

backward untuk penentuan variabel input yang optimal. Hasil-hasil ini dapat

dipandang sebagai pengembangan dari prosedur yang diperkenalkan oleh

Kaashoek dan Van Dijk (2002).

Dalam disertasi ini, pembentukan dua prosedur baru tersebut diperoleh

berdasarkan hasil-hasil teoritis berupa teorema tentang uji statistik Wald dan uji

R2incremental. Secara empiris dapat ditunjukkan bahwa kedua prosedur baru ini

Bab I. Pendahuluan

16

dapat bekerja dengan baik dalam menentukan arsitektur FFNN terbaik pada

suatu data runtun waktu. Selain itu, kedua prosedur ini juga terbukti memberikan

tahapan pembentukan model yang lebih efisien dibanding yang diusulkan oleh

Kaashoek dan Van Dijk (2002).

Hasil-hasil empiris berkaitan dengan perbandingan ketepatan ramalan

antara model FFNN dengan model-model runtun waktu yang lain menunjukkan

bahwa FFNN dengan cara pemrosesan awal yang tepat cenderung memberikan

hasil yang lebih baik dibanding model-model runtun waktu klasik. Selain itu,

kajian tentang efek pemrosesan awal data juga menunjukkan bahwa pemilihan

metode pemrosesan awal data yang tepat dapat secara signifikan meningkatkan

ketepatan ramalan FFNN.

Pada akhirnya, dalam disertasi ini juga diberikan hasil-hasil kajian

perbandingan ketepatan ramalan pada kasus runtun waktu yang multivariat.

Sebagi tambahan, hasil kajian teoritis terhadap model GSTAR memberikan dua

kontribusi utama, yaitu telah diperoleh suatu metode baru untuk penentuan bobot

lokasi yang optimal pada model GSTAR(11) yang terbukti lebih baik dibanding

metode yang lain, dan counter example dari teorema tentang kondisi stasioner

pada model GSTAR(11) yang diperkenalkan oleh Borovkova dkk. (2002).

1.5.3 Outline Disertasi

Disertasi ini terdiri atas enam bab bahasan. Bab I berisi tentang

pendahuluan, yang mencakup tentang latar belakang, permasalahan, dan tujuan

penelitian. Bab II membahas secara ringkas tentang model ARIMA yang

merupakan model linear yang paling banyak digunakan dalam peramalan runtun

waktu. Pada Bab III disajikan bagian pertama inti disertasi yaitu tentang estimasi

parameter model FFNN, sifat-sifat asimtotis estimator model FFNN, dan

penjabaran konstruksi teorema untuk uji Wald yang dapat digunakan untuk

proses inferensi terhadap estimator model FFNN.

Bab IV merupakan bagian kedua inti disertasi yang berisi tentang

penjabaran konstruksi teorema untuk uji terhadap kontribusi penambahan atau

Bab I. Pendahuluan

17

R2incremental. Selanjutnya, dalam bab ini juga dibahas dua prosedur baru untuk

pembentukan model FFNN pada peramalan runtun waktu yang merupakan

kontribusi utama dari disertasi.

Hasil-hasil empiris yang berkaitan dengan implementasi dua prosedur

baru pada data simulasi disajikan dalam Bab V. Pada bab ini juga diberikan hasil-

hasil empiris lainnya, yaitu hasil perbandingan ketepatan ramalan antara model

FFNN dan model-model runtun waktu klasik, hasil kajian efek pemrosesan awal

data pada runtun waktu yang mengandung pola tren dan musiman, serta hasil

perbandingan pada kasus runtun waktu yang multivariat. Pada akhirnya,

kesimpulan dan masalah terbuka diberikan dalam Bab VI.

- 18 -

BAB II ANALISIS RUNTUN WAKTU

Secara umum ada dua pendekatan utama dalam metode peramalan,

yaitu pendekatan sebab akibat (kausal) dan pendekatan runtun waktu. Bagian ini

fokus hanya menjelaskan peramalan dengan pendekatan runtun waktu atau yang

lebih dikenal dengan analisis runtun waktu, khususnya tentang proses ARMA.

Pembahasan dilakukan pada aspek teori dan penurunan estimasi parameter,

sifat-sifat estimator, dan sifat normalitas asimtotis dari estimator model ARMA.

Suatu kelas yang luas dari proses yang stasioner dapat dibangkitkan

dengan menggunakan white noise dalam suatu himpunan dari persamaan beda

linear. Hal ini mendorong suatu gagasan tentang suatu proses autoregressive-

moving average atau ARMA.

2.1 Proses ARMA (Autoregressive-Moving Average)

Pada bagian ini akan diberikan dan dijelaskan beberapa definisi, proposisi

dan teorema berkaitan dengan proses ARMA. Penjelasan secara lengkap dan

komprehensif dari teori tentang proses ARMA ini dapat dilihat pada Brockwell

dan Davis (1991).

Definisi 2.1.1. (Brockwell dan Davis 1991, Proses ARMA(p,q)). Suatu proses

,2,1,0, K±±∈tYt disebut proses ARMA(p,q) jika tY adalah stasioner dan

jika untuk setiap t ,

qtqttptptt YYY −−−− +++=−−− εθεθεφφ LL 1111 , (2.1.1)

dengan ),0(WN~ 2σε t . tY disebut suatu proses ARMA(p,q) dengan mean

µ jika µ−tY adalah suatu proses ARMA(p,q).

Persamaan (2.1.1) dapat ditulis secara simbolik dalam bentuk yang lebih

compact, yaitu

tt BYB εθφ )()( = , (2.1.2)

Bab II. Analisis Runtun Waktu 19

dengan φ dan θ adalah polinomial derajat p dan q, yaitu

pp zzz φφφ −−−= L11)( (2.1.3)

dan

qq zzz θθθ +++= L11)( (2.1.4)

dan B adalah suatu operator mundur (backward shift operator) yang didefinisikan

dengan

jttj YYB −= , K,2,1,0 ±±=j . (2.1.5)

Berikut ini adalah definisi dari konsep kausalitas (causality) untuk suatu

proses ARMA(p,q) yang umum.

Definisi 2.1.2. (Brockwell dan Davis, 1991) Suatu proses ARMA(p,q) yang

didefinisikan dengan persamaan tt BYB εθφ )()( = disebut suatu kausal (atau

secara lebih spesifik adalah suatu fungsi kausal dari tε ) jika terdapat suatu

barisan dari konstanta-konstanta jψ sedemikian hingga ∑∞= ∞<0 ||j jψ dan

∑∞

=−=

0jjtjtY εψ , K,2,1,0 ±±=t . (2.1.6)

Proposisi berikut ini memperjelas arti dari penjumlahan yang tertulis pada

persamaan (2.1.6).

Proposisi 2.1.1. (Brockwell dan Davis, 1991) Jika tY adalah sembarang

barisan dari variabel random sedemikian hingga ∞<||sup tt YE , dan jika

∑∞−∞= ∞<j j ||ψ , maka deret

∑∑∞

−∞=−

∞

−∞===

jjtj

jt

jjt YYBYB ψψψ )( , (2.1.7)

konvergen secara absolut dengan probabilitas satu. Jika dalam penjumlahan

∞<2||sup tt YE maka deret (series) itu konvergen dalam mean square pada

batas yang sama.


Proposisi 2.1.2. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses

yang stasioner dengan fungsi autokovarians )(⋅γ dan jika ∑∞−∞= ∞<j j ||ψ ,

maka untuk setiap ∈t ℤ, series (2.1.7) konvergen secara absolut dengan

probabilitas satu dan dalam mean square pada batas yang sama. Jika

tt YBZ )(ψ=

maka proses tZ adalah stasioner dengan fungsi autokovarians

∑∞

−∞=+−=

kjkjZ kjhh

,)()( γψψγ .

Teorema berikut ini memberikan syarat perlu dan cukup (necessary and

sufficient conditions) untuk suatu proses ARMA(p,q) adalah suatu kausal.

Teorema ini juga memberikan representasi eksplisit dari tY yang dinyatakan

dalam , tss ≤ε .

Teorema 2.1.1. (Brockwell dan Davis, 1991) Misalkan tY adalah suatu proses

ARMA(p,q) dengan polinomial )(⋅φ dan )(⋅θ tidak mempunyai pembuat nol yang

sama. tY adalah kausal jika dan hanya jika 0)( ≠zφ untuk semua ∈z ℂ sedemikian hingga 1|| ≤z . Koefisien-koefisien jψ dalam (2.1.6) ditentukan

oleh hubungan

)(/)()(0

zzzzj

jj φθψψ == ∑

∞

=, 1|| ≤z . (2.1.8)

Selanjutnya, akan diperkenalkan dan dijelaskan konsep lain yang

berkaitan erat dengan kausalitas, yaitu konsep dapat dibalik (invertibility).

Definisi 2.1.3. (Brockwell dan Davis, 1991) Suatu proses ARMA(p,q) yang

didefinisikan dengan persamaan tt BYB εθφ )()( = disebut dapat dibalik

(invertible) jika terdapat suatu barisan dari konstanta-konstanta jπ sedemikian

hingga ∑∞= ∞<0 ||j jπ dan

∑∞

=−=

0jjtjt Yπε , K,2,1,0 ±±=t . (2.1.9)


Seperti halnya kausalitas, sifat dapat dibalik (invertibility) bukanlah suatu

sifat dari proses tY sendiri, tetapi merupakan hubungan antara dua proses

tY dan tε yang terlihat dalam persamaan ARMA yang didefinisikan.

Teorema berikut ini memberikan syarat perlu dan cukup untuk invertibility dan

spesifikasi koefisien-koefisien jπ dalam representasi (2.1.9).

Teorema 2.1.2. (Brockwell dan Davis, 1991) Misalkan tY adalah suatu proses

ARMA(p,q) dengan polinomial )(⋅φ dan )(⋅θ tidak mempunyai pembuat nol yang

sama. tY adalah invertible jika dan hanya jika 0)( ≠zθ untuk semua ∈z ℂ sedemikian hingga 1|| ≤z . Koefisien-koefisien jπ dalam (2.1.9) ditentukan

oleh hubungan

)(/)()(0

zzzzj

jj θφππ == ∑

∞

=, 1|| ≤z . (2.1.10)

Teorema 2.1.3. (Brockwell dan Davis, 1991) Jika 0)( ≠zφ untuk semua ∈z ℂ sedemikian hingga 1|| =z , maka suatu persamaan ARMA(p,q),

tt BYB εθφ )()( = , mempunyai suatu penyelesaian tunggal,

∑∞

−∞=−=

jjtjtY εψ , (2.1.11)

dengan koefisien-koefisien jψ adalah ditentukan sebagai

)()()( 1 zzzzj

jj ψψφθ == ∑

∞

−∞=

− , rzr <<− ||1 . (2.1.12)

Berikut adalah pengembangan bentuk proses MA(q) yang dijelaskan

sebelumnya dengan memperhitungkan q adalah tak berhingga.

Definisi 2.1.4. (Brockwell dan Davis, 1991) Jika ),0(WN~ 2σε t maka dikata-

kan bahwa tY adalah suatu moving average (MA( ∞ )) dari tε jika terdapat

suatu barisan jψ dengan ∑∞= ∞<0 ||j jψ sedemikian hingga

jtj

jtY −

∞

=∑= εψ

0, K,2,1,0 ±±=t . (2.1.13)


Proposisi 2.1.3. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses

yang stasioner dengan mean nol dan fungsi autokovarians )(⋅γ sedemikian

hingga 0)( =hγ untuk qh >|| dan 0)( ≠qγ , maka tY adalah suatu proses

MA(q), yaitu terdapat suatu proses white noise tε sedemikian hingga

qtqtttY −− +++= εθεθε L11 . (2.1.14)

Berikut ini adalah teorema tentang fungsi autokovarians dari proses

MA( ∞ ) sebagai konsekuensi dari Proposisi 2.1.2.

Teorema 2.1.3. (Brockwell dan Davis, 1991) Suatu proses MA(∞ ) yang di-

definisikan pada (2.1.13) adalah stasioner dengan mean nol dan fungsi

autokovarians

∑∞

=+=

0||

2)(j

ktjk ψψσγ . (2.1.15)

2.2 Estimasi Parameter Model ARMA

Penentuan model ARMA(p,q) yang sesuai untuk merepresentasikan

suatu pengamatan runtun waktu yang stasioner melibatkan suatu permasalahan-

permasalahan yang saling terkait. Secara umum hal ini mencakup pemilihan orde

p dan q pada tahap identifikasi, estimasi parameter-parameter yaitu mean,

koefisien-koefisien ),,2,1;,,2,1:,( qjpiji KK ==θφ dan varians yang white

noise 2σ , dan cek diagnosa beberapa asumsi yang harus dipenuhi untuk

kesesuaian model.

Bagian ini fokus akan menjelaskan beberapa metode estimasi parameter

dalam model ARMA(p,q) beserta sifat-sifat estimator tersebut, yaitu estimator

Yule-Walker, Least Squares, dan Maximum Likelihood.

2.2.1 Estimasi Yule-Walker

Misalkan tY adalah suatu proses autoregressive kausal dengan mean

nol,

tptptt YYY εφφ =−−− −L1 , ),0(WN~ 2σε t . (2.2.1)


Tujuan dari estimasi ini adalah untuk mendapatkan estimator-estimator dari

vektor koefisien ),,,( 21 ′= pφφφ KΦ dan suatu varians yang white noise 2σ

berdasarkan pada pengamatan-pengamatan nYYY ,,, 21 K .

Asumsi kausalitas memberikan penulisan tY dalam bentuk

jtj

jtY −

∞

=∑= εψ

0, (2.2.2)

dengan menggunakan Teorema 2.1.1, ∑∞= =0 ),(/1j

jj zz φψ 1|| ≤z . Melalui

perkalian kedua sisi (2.2.1) dengan pjY jt ,,1,0, K=− , penerapan ekspektasi,

dan penggunaan (2.2.2) untuk mengevaluasi sisi sebelah kanan, diperoleh

persamaan Yule-Walker,

pp γΦΓ = , (2.2.3)

dan

pγφ′−= )0(2 γσ , (2.2.4)

dengan pΓ ialah matrik kovarians pjiji 1,)]([ =−γ dan ))(,),2(),1(( ′= pp γγγ Kγ .

Persamaan-persamaan ini dapat digunakan untuk menentukan )(,),0( pγγ K

dari 2σ dan Φ .

Di sisi lain, jika kovarians pjj ,,0),( K=γ , seperti yang terlihat pada

(2.2.3) dan (2.2.4), dengan memperhatikan kovarians sampel )(ˆ jγ , diperoleh

suatu himpunan persamaan-persamaan untuk estimator Yule-Walker Φ dan 2σ

dari Φ dan 2σ , yaitu

pp γΦΓ ˆˆˆ = , (2.2.5)

dan

pγφ ˆˆ)0(ˆˆ 2 ′−= γσ , (2.2.6)

dengan pjip ji 1,)](ˆ[ˆ=−= γΓ dan ))(ˆ,),2(ˆ),1(ˆ(ˆ ′= pp γγγ Kγ .

Jika 0)0(ˆ >γ , maka pΓ adalah non-singular. Bagi kedua sisi dari (2.2.5)

dengan )0(γ , sehingga diperoleh

ppR ρΦ ˆˆˆ 1−= , (2.2.7)


dan

]ˆˆˆ1)[0(ˆˆ 12ppp R ρρ −′−= γσ , (2.2.8)

dengan )0(ˆ/ˆ))(ˆ,),1(ˆ(ˆ γρρ pp p γρ =′= K .

Melalui Φ seperti yang didefinisikan pada (2.2.7), dapat ditunjukkan

bahwa 1ˆˆ1 1 ≠−−− pp zz φφ L untuk 1|| ≤z . Dengan demikian, model yang

ditaksir, yaitu

tptptt YYY εφφ =−−− −ˆ

1 L , )ˆ,0(WN~ 2σε t . (2.2.9)

adalah kausal. Autokovarians phhF ,,0),( K=γ dari model yang ditaksir harus

memenuhi 1+p persamaan linear

==

=−−−−− .0,ˆ

,,,1,0)(ˆ)1(ˆ)( 21 h

phphhh FpFF σ

γφγφγK

L

2.2.2 Estimasi Maximum Likelihood dan Least Squares

Misalkan tY adalah suatu proses ARMA(p,q) yang kausal, yaitu

qtqttptptt YYY −−−− ++++++= εθεθεθφφ LL 11011 , tε ∼ ),0(WN 2σ (2.2.10)

dengan 10 =θ . Dalam hal ini tY diasumsikan sebagai suatu proses Gaussian

dengan mean nol dan fungsi kovarians )(),( jiYYEji =κ . Misalkan

),,( 1 ′= nn YY KΥ , )ˆ,,ˆ(ˆ1 ′= nn YY KΥ dengan 01 =Y dan ),,|(ˆ

11 −= jjj YYYEY K

jYYSP YPj ,, 11 −

=K

2, ≥j . Misalkan pula nΓ menyatakan matriks kovarians,

)( nnn E ΥΥΓ ′= , dan asumsikan bahwa nΓ adalah non-singular.

Fungsi likelihood dari nΥ adalah

)exp()(det)2()( 1212/12/

nnnnn

nL ΥΓΥΓΓ −−− ′−= π . (2.2.11)

Perhitungan langsung untuk nΓ dan 1−nΓ dapat dihindari dengan menya-

takannya dalam prediktor-prediktor satu step jY , dan mean squared error nya

njv j ,,1,1 K=− , yang kedua hal ini secara mudah dapat dihitung secara rekursif

dari algoritma inovasi seperti pada proposisi berikut.


Proposisi 2.2.1. (Brockwell dan Davis 1991, The Innovations Algorithm atau

Algoritma Inovasi). Jika tY mempunyai mean nol dan ),()( jiYYE ji κ= , dengan

matriks njiji 1,)],([ =κ adalah non-singular untuk tiap-tiap K,2,1=n , maka

prediktor-prediktor satu step 0,ˆ1 ≥+ nYn , dan mean squared errornya 1, ≥nvn ,

adalah

≥−

== ∑

=−+−+

+ ,1 jika)ˆ(

,0 jika 0ˆ

111

1 nYY

nY n

jjnjnnj

n θ (2.2.12)

dan

Dengan menerapkan Proposisi 2.2.1 ini, pada akhirnya akan diperoleh

∑=

−−− −=−′−=′

n

jjjjnnnnnnn vYYD

11

211 /)ˆ()ˆ()ˆ( ΥΥΥΥΥΓΥ , (2.2.14)

dan

1102 )(det)(detdet −==Γ nn vvvDC L , (2.2.15)

dengan 10,, ][ −

=−= njijiiC θ dan ),,,(diag 110 −= nvvvD K . Sehingga, fungsi likelihood

(2.2.11) dari vektor nΥ tereduksi menjadi

−−= ∑=

−−

−−

n

jjjjn

nn vYYvvL

11

22/110

2/ /)ˆ(21exp)()2()( KπΓ . (2.2.16)

Melalui prediksi secara rekursi dapat ditunjukkan bahwa prediktor-

prediktor satu step 1ˆ

+iY dan mean squared error nya adalah

≥−+++=

=<≤−=

∑

∑

=−+−+−++

=−+−++

, ),ˆ(ˆ

),,max(1 ),ˆ(ˆ

111111

1111

miYYθYYY

qpmiYYθY

q

jjijiijpipii

i

jjijiiji

φφ L

(2.2.13)

(2.2.17)


dan

,)ˆ( 2211 iii rYYE σ=− ++ (2.2.17)

dengan ijθ dan ir diperoleh dengan mengaplikasikan Proposisi 2.2.2 ke dalam

fungsi kovarians. Substitusikan hasil ini ke dalam pernyataan umum (2.2.16),

diperoleh fungsi likelihood Gaussian dari vektor-vektor observasi

),,( 1 ′= nn YY KΥ yaitu

−−= ∑

=−

−−−

− n

jjjjn

n rYYrrL1

122

212/1

102/22 /)ˆ(exp)()2(),,( σπσσ KθΦ , (2.2.19)

dengan ),,( 1 ′= pφφ KΦ dan ),,( 1 ′= qθθ Kθ .

Penurunan secara parsial ),,(ln 2σθΦL terhadap 2σ , dan catatan

bahwa jY dan jr adalah independen terhadap 2σ , akan menghasilkan estimator

maximum likelihood Φ , θ dan 2σ yang memenuhi

)ˆ,ˆ(ˆ 12 θΦSn−=σ , (2.2.20)

dengan

∑=

−−=n

jjjj rYYS

11

2 /)ˆ()ˆ,ˆ( θΦ , (2.2.21)

dan Φ , θ adalah nilai-nilai dari Φ , θ yang meminimumkan

∑=

−−− +=

n

jjrnSnl

11

11 ln)),(ln(),( θΦθΦ . (2.2.22)

Dalam hal ini, ),( θΦl adalah fungsi likelihood yang tereduksi atau “reduced

likelihood”.

Prosedur estimasi alternatif adalah dengan cara meminimumkan jumlah

kuadrat terboboti

∑=

−−=n

jjjj rYYS

11

2 /)ˆ(),( θΦ , (2.2.23)

terhadap Φ dan θ . Estimator-estimator yang diperoleh melalui cara demikian

disebut dengan estimator “least squares” Φ~ dan θ~ dari Φ dan θ .

Bagaimanapun, untuk proses minimisasi ),( θΦS adalah penting untuk tidak


hanya membatasi Φ harus kausal, tetapi juga membatasi θ harus dapat dibalik

(invertible). Jika ∑ = −− n

j jrn1 1

1 ln adalah secara asimtotis dapat diabaikan jika

dibandingkan dengan ),(ln θΦS , seperti dalam kasus ketika θ adalah dibatasi

harus invertible (karena 1→nr ), maka dari (2.2.22), minimisasi S adalah

ekuivalen dengan minimisasi l dan estimator-estimator least squares dan

maximum likelihood akan mempunyai sifat-sifat asimtotis yang sama.

2.3 Teori Asimtotis

Penurunan distribusi dari berbagai statistik yang digunakan untuk

estimasi parameter dari data adalah hal yang penting agar dapat melakukan

inferensia statistik pada runtun waktu. Bagian ini menjelaskan berbagai definisi,

proposisi dan teorema dari teori asimtotis yang banyak digunakan dalam runtun

waktu. Pembahasan secara komprehensif dari teori asimtotis ini dapat pula

dilihat pada Serfling (1980), Billingsley (1979; Chapter 5), Brockwell dan Davis

(1991; Chapter 6), serta White (1999).

Berikut ini adalah beberapa konsep dasar tentang definisi yang berkaitan

dengan limits yang digunakan sebagai dasar untuk mengevaluasi konvergensi

atau sifat asimtotis dari suatu estimator.

Definisi 2.3.1. (White, 1999) Misalkan nb adalah suatu barisan bilangan real.

Jika ada suatu bilangan real b dan jika untuk setiap bilangan real 0>δ ada

suatu bilangan bulat )(δN sedemikan hingga untuk semua )(δNn ≥ ,

δ<− || bbn , maka b merupakan limit dari barisan nb .

Definisi 2.3.2. (White, 1999) (i) Suatu barisan nb dikatakan sebanyak-banyak-

nya pada orde λn , dinotasikan )( λnObn = , jika untuk beberapa bilangan real

terbatas 0>∆ , ada suatu bilangan bulat terbatas N sedemikan hingga untuk

semua Nn ≥ , ∆<− | | nbn λ . (ii) Suatu barisan nb adalah pada orde lebih kecil

dari λn , dinotasikan )( λnobn = , jika untuk setiap bilangan real 0>δ ada suatu

bilangan bulat terbatas )(δN sedemikian hingga untuk semua )(δNn ≥ ,

δλ <− | | nbn , yaitu 0 →−nbn λ .


2.3.1 Konvergen Hampir Pasti (Almost Sure Convergence)

Berikut ini adalah definisi tentang konvergen hampir pasti untuk barisan

variabel random dan proposisi tentang konvergen hampir pasti untuk barisan

vektor random.

Definisi 2.3.3. (White, 1999) Misalkan )( ⋅nX adalah suatu barisan variabel

random yang bernilai real. Dikatakan bahwa )(⋅nX adalah konvergen hampir

pasti (almost surely) pada suatu konstanta X , ditulis XX san →⋅ ..)( , jika ada

suatu bilangan real X sedemikian hingga 1)(: =→ XXP n ωω .

Proposisi 2.3.1. (White, 1999) Diberikan lkg ℜ→ℜ: ∈lk,( ℕ) dan sembarang

barisan vektor random nΧ yang berukuran 1×k sedemikian hingga

ΧΧ → ..san , dimana Χ adalah 1×k , jika g adalah kontinyu pada Χ , maka

)()( .. XX gg san → .

Bentuk konvergensi stokastik pada Definisi 2.3.3 dikenal dengan konsis-

tensi kuat (strong consistency) atau konvergen dengan probabilitas satu ( 1..pw ).

2.3.2 Konvergen dalam Probabilitas

Bagian ini dimulai dengan definisi tentang konvergen dalam probabiltas

dan konsep-konsep orde yang berkaitan, yang analog kuat dengan bagian

deterministik. Dengan pemahaman tersebut dapat dikembangkan konvergen

dalam probabilitas dari ekspansi Taylor yang akan digunakan untuk menurunkan

distribusi asimtotis sampel besar dari estimator-estimator parameter runtun

waktu. Bentuk konvergensi dalam probabilitas ini dikenal juga sebagai

konsistensi lemah (weak consistency).

Misalkan ,2,1, K=nan adalah suatu barisan bilangan real positif dan

misalkan ,2,1, K=nX n adalah suatu barisan variabel random yang semuanya

didefinisikan pada ruang probabilitas yang sama.


Definisi 2.3.4. (Brockwell dan Davis 1991, Konvergen dalam Probabilitas ke nol).

nX disebut konvergen dalam probabilitas ke nol, ditulis )1(pn oX = atau

0→pnX , jika untuk setiap 0>ε ,

0)|(| →> εnXP untuk ∞→n .

Definisi 2.3.5. (Brockwell dan Davis 1991, Keterbatasan dalam Probabilitas).

Suatu barisan nX adalah terbatas dalam probabilitas, ditulis )1(pn OX = , jika

untuk setiap 0>ε ada ),0()( ∞∈εδ sedemikian hingga

εεδ <> ))(|(| nXP untuk semua n .

Definisi 2.3.6. (Brockwell dan Davis 1991, Konvergen dalam Probabilitas dan

Orde dalam Probabilitas).

(i) nX konvergen dalam probabilitas ke suatu variabel random X , ditulis

XX pn → , jika dan hanya jika )1(pn oXX =− .

(ii) )( npn aoX = jika dan hanya jika )1(1pnn oXa =− .

(iii) )( npn aOX = jika dan hanya jika )1(1pnn OXa =− .

Proposisi 2.3.2. (Brockwell dan Davis, 1991) Jika nX dan nY , K,2,1=n , adalah

variabel random yang didefinisikan pada ruang probabilitas yang sama dan

0>na , 0>nb , K,2,1=n , maka

(i) jika )( npn aoX = dan )( npn boY = , diperoleh

)( nnpnn baoYX = ,

)),(max( nnpnn baoYX =+ ,

dan

)(|| rnp

rn aoX = , untuk 0>r ;

(ii) jika )( npn aoX = dan )( npn bOY = , diperoleh

)( nnpnn baoYX = .

Lagipula

(iii) pernyataan (i) tetap valid jika po adalah di setiap tempat tergantikan oleh

pO .


Berikut ini adalah teorema yang menunjukkan hubungan antara

konvergen hampir pasti dengan konvergen dalam probabilitas.

Teorema 2.3.1. (White, 1999) Misalkan nb adalah suatu barisan variabel

random. Jika bb san → .. , maka bb p

n → . Jika bb pn → , maka ada suatu

sub-barisan jnb sedemikian hingga bb sa

n j→ .. .

Definisi 2.3.4–2.3.6 berkembang secara natural untuk barisan dari vektor

random. Anggap sekarang bahwa ,2,1, K=nnΧ adalah suatu barisan dari

vektor random, yang semuanya didefinisikan pada ruang probabilitas yang sama

sedemikian hingga nΧ mempunyai k komponen ,,,, 21 nknn XXX K K,2,1=n .

Definisi 2.3.7. (Brockwell dan Davis 1991, Orde dalam Probabilitas untuk Vektor

Random).

(i) )( npn ao=Χ jika dan hanya jika )( npnj aoX = , kj ,,1 K= .

(ii) )( npn aO=Χ jika dan hanya jika )( npnj aOX = , kj ,,1 K= .

(iii) nΧ konvergen dalam probabilitas ke suatu vektor random Χ , ditulis

ΧΧ →pn , jika dan hanya jika` )1(pn o=− ΧΧ .

Konvergen dalam probabilitas dari nΧ ke Χ dapat juga dinyatakan

dalam jarak Euclidean ∑ = −=− kj jnjn XX1

2/12 ])([|| ΧΧ .

Proposisi 2.3.3. (Brockwell dan Davis, 1991) )1(pn o=−ΧΧ jika dan hanya

jika )1(|| pn o=− ΧΧ .

Proposisi 2.3.4. (Brockwell dan Davis, 1991) Jika 0→− pnn ΥΧ dan

ΥΥ →pn maka ΥΧ →p

n .

Proposisi 2.3.5. (Brockwell dan Davis, 1991) Jika nΧ adalah suatu barisan

dari vektor random berdimensi k sedemikian hingga ΧΧ →pn dan jika

:g ℝ k → ℝ m adalah suatu pemetaan kontinyu, maka )()( ΧΧ gg pn → .


Jika g adalah kontinyu pada a dan )1(pn oa +=Χ maka argumen dari

Proposisi 2.3.5 menjelaskan bahwa )1()()( pn oagg +=Χ . Jika asumsi pada g

diperkuat dengan mencakup keberadaan suatu turunan, maka penurunan

probabilistik yang sejalan untuk ekspansi Taylor dari fungsi tidak random di

sekitar titik a adalah mungkin. Berikut ini adalah beberapa kesejalanan yang

bermanfaat dalam penurunan distribusi asimtotis.

Proposisi 2.3.6. (Brockwell dan Davis, 1991) Misalkan nΧ adalah suatu

barisan variabel random sedemikian hingga )( npn rOaX += dengan ∈a ℝ dan

00 →< nr untuk ∞→n . Jika g adalah suatu fungsi dengan turunan ke s

pada a , maka

∑=

+−=s

j

snp

jn

j

n roaXj

agXg0

)(

)()(!

)()( ,

dengan )( jg adalah turunan ke j dari g dan gg =)0( .

Proposisi 2.3.7. (Brockwell dan Davis, 1991) Misalkan nΧ adalah suatu

barisan vektor random berukuran 1×k sedemikian hingga

)( npn rO=− aΧ ,

dengan ∈a ℝ k dan 0→nr untuk ∞→n . Jika g adalah suatu fungsi dari ke

ℝ k ke ℝ sedemikian hingga turunan ixg ∂∂ / adalah kontinyu dalam suatu

persekitaran (neighborhood) )(aN dari a , maka

∑=

+−∂∂

+=k

inpini

in roaX

xggg

1)())(()()( aaΧ .

2.3.3 Konvergen dalam Mean ke r, r > 0

Pada bagian ini akan diberikan konsep konvergen dalam mean ke r dari

suatu variabel random dan sifat-sifatnya. Jika 2=r maka variabel random

adalah konvergen dalam kuadrat mean (mean square convergence).


Definisi 2.3.8 (Konvergen dalam Mean ke r , 0>r ). Suatu barisan variabel

random nΧ dikatakan konvergen dalam mean ke r menuju X , ditulis

XX rn → , jika 0|| →− r

n XXE untuk ∞→n .

Proposisi 2.3.8 (Brockwell dan Davis 1991, Pertidaksamaan Chebychev). Jika

∞<rXE || , 0≥r dan 0>ε , maka

r

rXEXPε

ε||)|(| ≤≥ .

Proposisi berikut memberikan hubungan yang bermanfaat antara perilaku

dari momen dan orde dalam probabilitas.

Proposisi 2.3.9. (Brockwell dan Davis, 1991) Jika XX rn → maka

XX pn → .

Proposisi 2.3.10. (Brockwell dan Davis, 1991) Jika K,2,1 ,0 => nan , dan

)()( 22nn aOXE = , maka )( npn aOX = .

Proposisi 2.3.11. (Brockwell dan Davis, 1991) Jika µ→)( nXE dan

0)(Var →nX maka µ→ ..smnX (dan µ→p

nX dengan Proposisi 2.3.9).

2.3.4 Konvergen dalam Distribusi

Pernyataan XX smn → .. dan XX p

n → adalah bermanfaat hanya

ketika variabel random K,,, 21 XXX , didefinisikan pada ruang probabilitas yang

sama. Notasi konvergen dalam distribusi tergantung hanya pada fungsi distribusi

K,,, 21 XXX , adalah tetap berguna bahkan jika K,,, 21 XXX didefinisikan pada

ruang probabilitas yang berbeda.

Definisi 2.3.9. (Brockwell dan Davis 1991, Konvergen dalam Distribusi). Suatu

barisan nΧ dari vektor random berukuran k dengan fungsi distribusi )( ⋅n

FX


dikatakan konvergen dalam distribusi jika ada suatu vektor random berukuran k ,

Χ , sedemikian hingga

)()(lim xx XX FFnn

=∞→

untuk semua C∈x , (2.3.1)

dengan C adalah suatu himpunan titik-titik kontinuitas dari fungsi distribusi )(⋅XF

dari Χ . Jika (2.3.1) dipenuhi, dapat dikatakan bahwa nΧ konvergen dalam

distribusi ke Χ . Konvergensi distribusi ini dinotasikan dengan ΧΧ →dn atau

XX FF dn

→ .

Jika ΧΧ →dn maka distribusi dari nΧ dapat dengan baik didekati oleh

distribusi Χ untuk n yang besar.

Teorema 2.3.2. (Billingsley 1979, Karakterisasi dari Konvergen dalam Distribusi).

Jika ,, 10 FF K,2F adalah fungsi-fungsi distribusi pada ℝ k dengan fungsi

karakteristik ∫ℜ ′= k nn dFxi )()exp()( xttφ , K2,1,0=n , maka pernyataan berikut

adalah ekuivalen:

(i) 0FF dn → ,

(ii) ∫∫ ℜℜ → kk dFgdFg n )()()()( 0 xxxx , untuk setiap fungsi g yang kontinyu dan

terbatas.

(iii) )()(lim 0 tt φφ =∞→

nn, untuk setiap ∈′= ),,( 1 ktt Kt ℝ k .

Proposisi 2.3.12. (Brockwell dan Davis 1991, Aturan Cramer-Wold). Misalkan

nΧ adalah suatu barisan vektor random berdimensi k . Maka ΧΧ →dn jika

dan hanya jika ΧΧ λdn ′→′λ untuk semua ∈′= ),,( 1 kλλλ K ℝ k .

Proposisi 2.3.13. (Brockwell dan Davis, 1991) Jika ΧΧ →Pn maka

(i) 0|)exp()exp(| →′−′ ΧΧ titiE n , saat ∞←n untuk setiap ∈t ℝ k

dan

(ii) ΧΧ →dn .


Proposisi 2.3.14. (Brockwell dan Davis, 1991) Jika nΧ dan nΥ adalah

dua barisan vektor random berdimensi k sedemikian hingga )1(pnn o=−ΥΧ

dan ΧΧ →dn , maka ΧΥ →d

n .

Proposisi 2.3.15. (Brockwell dan Davis, 1991) Jika nΧ adalah suatu barisan

vektor random berdimensi k sedemikian hingga ΧΧ →dn dan jika :h

ℝ k →ℝ m adalah suatu pemetaan kontinu, maka )()( ΧΧ hh dn → .

Proposisi 2.3.16. (Brockwell dan Davis, 1991) Jika bΧ →dn dengan b

adalah suatu vektor konstanta berdimensi k , maka bΧ →pn .

Proposisi 2.3.17. (Brockwell dan Davis 1991, Hukum yang Lemah dari Bilangan

Besar atau The Weak Law of Large Numbers). Jika nX adalah suatu barisan

variabel random yang IID dengan suatu mean µ yang terbatas, maka

µ→pnX ,

dengan nXXX nn /)( 1 ++= L .


barisan-barisan dari vektor random yang berdimensi k dan m , dan jika

ΧΧ →dn dan bΥ →d

n adalah suatu vektor konstanta, maka

→

bΧ

ΥΧ d

n

n . (2.3.2)


barisan-barisan dari vektor random yang berdimensi k sedemikian hingga

ΧΧ →dn dan bΥ →d

n dengan b adalah suatu konstanta, maka

(i) bΧΥΧ +→+ dnn

dan

(ii) ΧbΧΥ ′→′ dnn .


Proposisi 2.3.20. (Brockwell dan Davis, 1991) Misalkan nΧ , K,2,1=n , dan

njΥ , ;,2,1 K=j K,2,1=n , adalah vektor-vektor random yang berdimensi k

sedemikian hingga

(i) jd

nj ΥΥ → saat ∞→n untuk setiap K,2,1=j ,

(ii) ΥΥ →dj saat ∞→j , dan

(iii) 0)|(|suplimlim =>−∞→∞→ εnjnnj P ΥΧ untuk setiap 0>ε .

Maka ΥΧ →dn untuk ∞→n .

Proposisi 2.3.21. (Brockwell dan Davis 1991, Hukum yang Lemah dari Bilangan

Besar untuk Moving Average atau The Weak Law of Large Numbers for Moving

Average). Jika nY adalah suatu moving average bersisi dua

∑∞

−∞=−=

jjtjnY εψ ,

dengan tε adalah IID dengan mean µ dan ∑∞

−∞=∞<

j j ||ψ . Maka

µψ

→ ∑

∞

−∞=jj

pnY .

(Catatan bahwa varians dari tε mungkin tidak terhingga.)

Berikut ini adalah teorema yang menjelaskan hubungan antara konvergen

dalam probabilitas dan konvergen dalam distribusi yang dikenal dengan Teorema

Slutsky.

Teorema 2.3.3. (Serfling 1980, Slutsky). Jika XX →dn dan cY →p

n ,

dengan c suatu konstanta yang berhingga. Maka

(i) cXYX +→+ dnn ;

(ii) cXYX →dnn ;

(iii) cXYX // →dnn jika 0≠c .


2.3.5 Teorema Limit Pusat dan Hasil-hasil yang Berkaitan

Banyak dari estimator-estimator yang digunakan dalam analisis runtun

waktu menjadi normal secara asimtotis seiring dengan jumlah pengamatan

menuju tak terhingga. Dalam bagian ini akan dikembangkan beberapa teknik

standar yang digunakan untuk membuktikan normalitas asimtotis.

Definisi 2.3.10. Suatu barisan variabel random nX disebut normal asimtotis

dengan ”mean” nµ dan ”deviasi standar” nσ , jika 0>nσ untuk n cukup besar

dan

ZX d

n

nn →−

σµ )(

, dengan )1,0(~ ΝZ .

Dalam notasi dari Serfling (1980), hal ini ditulis dengan nX adalah ),( 2nn σµΑΝ .

Catatan 1. Jika nX ),( 2nn

d σµΝ→ , ini tidaklah perlu bahwa )( nn XE=µ

atau bahwa )(2nn XVar=σ .

Catatan 2. Untuk membuktikan bahwa nX ),( 2nn

d σµΝ→ seringkali yang

paling sederhana adalah membuktikan hasil dalam bentuk ekuivalen

)2/exp()( 2ttnZ −→φ .

dengan )(⋅nZφ adalah fungsi karakteristik dari )(1

nnnn XZ µσ −− − . Pendekatan

ini bekerja dengan baik secara khusus ketika nX adalah suatu jumlah dari

variabel random independen seperti pada teorema berikut ini.

Teorema 2.3.4. (Brockwell dan Davis 1991, Teorema Limit Pusat atau The

Central Limit Theorem). Jika ),(IID~ 2σµnX dan nXXX nn /)( 1 ++= L ,

maka

nX )/,(N 2 nd σµ→ .

Catatan 3. Asumsi dari distribusi yang identik dalam Teorema 2.3.4 dapat

digantikan oleh yang lain, seperti suatu kondisi Lindeberg (lihat Billingsley, 1979;

halaman 310) dengan suatu batasan pada suatu varians terpotong dari variabel

random nX .


Proposisi 2.3.22. (Brockwell dan Davis, 1991) Jika nX ),( 2n

d σµΝ→ dengan

0→nσ untuk ∞→n , dan jika g adalah suatu fungsi yang dapat diturunkan

pada µ , maka

)( nXg ))(),(( 22n

d gg σµµ ′Ν→ .

Selanjutnya akan dikembangkan bentuk dari normalitas asimtotis untuk

vektor-k yang random, dengan 1≥k . Berikut adalah definisi yang berkaitan

dengan asismtotis normalitas multivariat.

Definisi 2.3.11. Suatu barisan nΧ dari vektor- k yang random adalah normal

asimtotis dengan ”vektor mean” nμ dan ”matriks kovarians” nΣ jika

(i) nΣ tidak mempunyai elemen-elemen diagonal yang nol untuk semua n

cukup besar, dan

(ii) nΧλ ′ ),( λλλ nnd Σμ ′′Ν→ untuk setiap ∈λ ℝ k sedemikian hingga

0>′ λλ nΣ untuk semua semua n cukup besar.

Proposisi 2.3.23. (Brockwell dan Davis, 1991) Jika nΧ ),( nnd ΣμΝ→ dan B

adalah sembarang matriks km× tidak nol sedemikian hingga matriks-matriks

BB n ′Σ , K,2,1=n , tidak mempunyai elemen-elemen diagonal nol, maka

nBΧ ),( BBB nnd ′Ν→ Σμ .

Proposisi 2.3.24. (Brockwell dan Davis, 1991)

Anggap bahwa nΧ ),( 2Σμ nd cΝ→ dengan Σ adalah suatu matriks simetrik

yang definit negatif dan 0→nc untuk ∞→n . Jika ))(,),(()( 1 ′= ΧΧΧg mgg K

adalah suatu pemetaan dari ℝ k ke ℝm sedemikian hingga tiap-tiap )(⋅ig dapat

diturunkan secara kontinyu dalam suatu persekitaran μ , dan jika DDΣ ′

mempunyai elemen-elemen diagonal yang semuanya tidak nol, dengan D

adalah suatu matriks )])(/[( μji xg ∂∂ berukuran km× , maka

)( nΧg )),(( 2 DDΣμg ′Ν→ nnd c .


Definisi 2.3.12. (Brockwell dan Davis 1991, Dependensi- )m . Suatu barisan

variabel random yang stasioner kuat nX dikatakan dependensi- m (dengan m

adalah suatu bilangan bulat non negatif) jika untuk tiap-tiap t , dua himpunan

variabel random , tjX j ≤ dan 1, ++≥ mtjX j adalah independen.

Catatan 4. Untuk melakukan pengecekan dependensi- m dari barisan yang

stasioner kuat ,2,1,0, K±±=tX t , hal ini adalah cukup dengan melakukan cek

independensi dari dua himpunan , tjX j ≤ dan 1, ++≥ mtjX j , karena

himpunan-himpunan itu mempunyai distribusi gabungan yang sama seperti

, tjX j ≤ dan 1, ++≥ mtjX j .

Catatan 5. Sifat dependensi- m mengeneralisasi independensi dalam cara yang

natural. Pengamatan-pengamatan dari suatu proses yang dependen-m adalah

independen untuk pengamatan-pengamatan yang terpisah dalam waktu lebih

dari m unit waktu. Untuk kasus khusus ketika 0=m , dependensi-m tereduksi

menjadi independensi. Suatu proses MA( q ) adalah proses yang dependen-m

dengan qm = .

Teorema 2.3.5. (Brockwell dan Davis 1991, Teorema Limit Pusat untuk Barisan

Dependen- m yang Stasioner Kuat atau The Central Limit Theorem for Strictly

Stationary m -Dependent Sequences). Jika nX adalah suatu barisan variabel

random dependen- m yang stasioner kuat dengan mean nol dan fungsi

autokovarians )(⋅γ , dan jika 0)(2)0( 1 ≠+= ∑ =mjm jv γγ , maka:

(i) mnn

vXn =∞→

)(lim Var ,

(ii) nX )/,0( nvmd Ν→ .

2.4 Sifat Normalitas Asimtotis Estimator Model ARMA

Pada bagian ini akan diberikan penjabaran sifat-sifat estimator model

ARMA beserta sifat normalitas asimtotisnya. Sifat-sifat ini adalah bagian penting

untuk proses inferensia statistik berkaitan dengan signifikansi parameter model


ARMA. Secara umum, penurunan secara teoritik akan dilakukan pada estimator

Yule-Walker, Least Squares dan Maximum Likelihood.

2.4.1 Sifat Estimator Yule-Walker

Untuk mengetahui sifat asimtotis dari estimator Yule-Walker ini,

asumsikan bahwa tY adalah suatu proses AR(p) yang kausal

tptptt YYY εφφ =−−− −L1 , (2.4.1)

dengan ),0(IID~ 2σε t . Penaksir Yule-Walker dari Φ dan 2σ adalah seperti

yang diberikan pada persamaan (2.2.7) dan (2.2.8), atau ekuivalen dengan

pp γΓΦ ˆˆˆ 1−= ,

dan Φγ ˆˆ)0(ˆˆ 2

pγ ′−=σ .

Ini adalah lebih mudah untuk menyatakan (2.4.1) dalam bentuk

εXΦY += , (2.4.2)

dengan ),,( 1 ′= nYY KY , ),,( 1 ′= nεε Kε dan X adalah suatu matrik pn × ,

=

−−−

−

−−

pnnn

p

p

YYY

YYYYYY

L

MOMM

L

L

21

201

110

X .

Karena (2.4.2) adalah sama dengan suatu model linear umum, maka ”taksiran

regresi linear” *Φ dari Φ didefinisikan dengan

YXXXΦ ′′= −1* )( . (2.4.3)

Vektor *Φ bukanlah suatu estimator yang biasa karena estimator ini tergantung

pada nilai-nilai pnpp YYY −−− ,,, 21 K dan tidak hanya tergantung pada nYY ,,1 K .

Proposisi 2.4.1. (Brockwell dan Davis, 1991) Dengan *Φ didefinisikan seperti

dalam (2.4.3)

),(N)( 12*2/1 −→− pdn Γ0ΦΦ σ .


Berikut ini adalah beberapa teorema yang berkaitan dengan distribusi

asimtotis dari estimator Yule-Walker.

Teorema 2.4.1. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses

AR(p) yang kausal seperti pada Persamaan (2.4.1) dengan ),0(IID~ 2σε t ,

dan Φ adalah estimator Yule-Walker dari Φ , maka

),()ˆ( 122/1 −Ν→− pdn Γ0ΦΦ σ ,

dengan pΓ adalah suatu matrik kovarians pjiji 1,)]([ =−γ . Selain itu,

22ˆ σσ →p .


AR(p) yang kausal seperti pada Persamaan (2.4.1) dengan ),0(IID~ 2σε t ,

dan jika pmR mmmmmm >′=′= ,ˆˆ)ˆ,,ˆ(ˆ1 ρΦ φφ K , maka

),()ˆ( 122/1 −Ν→− md

mmn Γ0ΦΦ σ ,

dengan mΦ adalah suatu vektor koefisien dari prediktor linear terbaik mΦ′ mΥ

dari 1+mY berdasarkan pada mΥ ),,( 1 ′= YYm K , yaitu mmm R ρΦ 1−= . Secara

khusus untuk pm > ,

)1,0(Nˆ2/1 →dmmn φ .

2.4.2 Sifat Estimator Maximum Likelihood dan Least Squares

Pada bagian ini akan dijelaskan normalitas asimtotis suatu estimator dari

vektor koefisien untuk proses ARMA(p,q) yang kausal dan invertible yang

mempunyai distribusi asimtotis yang sama seperti estimator least squares dan

maximum likelihood.

Ingat kembali bahwa estimator-estimator least squares meminimumkan

jumlah kuadrat,

∑=

−−=n

tttt rYYS

11

2 /)ˆ(),( θΦ .


Berikut ini adalah pendekatan atau aproksimasi untuk ),( θΦS . Pertama, dekati

suatu ”standardized innovations” 2/11)/()ˆ( −− ttt rYY dengan )( θΦ,tε , yaitu

−−−−−=

−−==

−−−− ).,(),()( ),,()( ,)(

1111

111122

11

θΦθΦθΦ

θΦθΦθΦ

qnqnpnpnnn YYY,

YY,Y,

εθεθφφε

εθφεε

LL

M (2.4.4)

Dengan asumsi invertibilitas, tε dapat ditulis dalam bentuk,

∑∞

=−+=

1jjtjtt YY πε ,

sehingga (2.4.7) dapat dijabarkan sebagai

∑−

=−+=

1

1),(

t

jjtjtt YY πε θΦ .

Gunakan hubungan-hubungan berikut

∑−

=≤−

1

11||),(

t

jjtt Yπεε θΦ ,

221

2),(ˆ θΦtttt rYY εσ ≤=− − ,

dan

21

2)1()ˆ( σε −=−− −tttt rYY ,

dapat ditunjukkan bahwa

≤

≤−−

≤−

−

,),( ,)/()ˆ(),(

,),(

22/1

1

1

kacrYY

ac

t

ttttt

ttt

θΦθΦθΦ

ε

ε

εε

(2.4.5)

untuk semua t dengan 21,, cca dan k adalah konstanta-konstanta dengan

10 << a .

Dalam hal ini adalah penting untuk membuat satu pendekatan lanjut

untuk 2/11)/()ˆ( −− ttt rYY dengan melinearisasi ),( θΦtε pada suatu nilai estimasi


awal ),( 00 θΦ dari ),( θΦ . Dengan demikian, jika ),,,,,( 11 qp θθφφ KK=′β dan

),( 000 θΦβ ′′=′ , maka )(βtε dapat didekati dengan

)()( 00 ββDβ −′− ttε ,

dengan ))(,),(( 0,01, ββD qpttt DD +=′ K , dan

,)(

)(,i

titD

βε∂

∂−=

ββ qpi += ,,1 K .

Selanjutnya, dengan meminimisasi jumlah kuadrat

∑=

−′−n

ttt

1

200 ))()(( ββDβε .

akan diperoleh suatu estimator +β dari β yang mempunyai sifat-sifat asimtotis

seperti estimator least squares β~ . Secara khusus, jika dimisalkan bahwa

))(,),(()( 0010 ′= βββε nεε K dan tulis D untuk matriks ukuran )( qpn +× , yaitu

),,( 1 ′nDD K , maka estimasi regresi linear dari 0βββ −=∆ adalah

)()( 01 βεΔβ DDD ′′= −

∧,

sehingga

∧+ += Δβββ 0 .

Sifat normalitas asimtotis dari estimator ini adalah kenyataan yang telah terbukti

mengikuti teorema berikut ini.


ARMA(p,q) yang kausal dan invertible

qtqttptptt YYY −−−− +++=−−− εθεθεφφ LL 1111 ,

dengan ),0(IID~ 2σε t dan dengan )(zφ dan )(zθ tidak mempunyai pembuat

nol. Anggap bahwa ),,( ,0010 ′= +qpββ Kβ adalah suatu estimator awal dari

),,,,,( 11 ′= qp θθφφ KKβ sedemikian hingga )( 4/10

−=− no pββ , dan +β adalah

estimator yang dikonstruksi dari 0β seperti yang dijelaskan di atas. Maka

(i) )(121 β−− →′ VDDn p σ


dengan )(βV adalah suatu matriks nonsingular ukuran )()( qpqp +×+ dan

(ii) ))(,()(2/1 β0Nββ Vn d→−+ .

Sebagai tambahan untuk estimator least squares β~ , diperoleh

(iii) ))(,()~(2/1 β0Nββ Vn d→− .

- 44 -

BAB III FEEDFORWARD NEURAL NETWORKS

Bentuk arsitektur neural networks (NN) yang secara umum paling banyak

digunakan dalam aplikasi di bidang teknik atau rekayasa adalah Multi Layer

Perceptrons (MLP) yang juga dikenal dengan Feedforward Neural Networks

(FFNN). Pemodelan regresi, runtun waktu dan signal processing adalah salah

satu aplikasi NN yang biasanya berdasarkan pada arsitektur FFNN.

Dalam pemodelan statistik, FFNN dapat dipandang sebagai suatu kelas

yang fleksibel dari fungsi-fungsi nonlinear. Secara umum, model ini bekerja

dengan menerima suatu vektor dari input x dan kemudian menghitung suatu

respon atau output )(ˆ xy dengan memproses (propagating) x melalui elemen-

elemen proses yang saling terkait. Elemen-elemen proses tersusun dalam

beberapa lapis (layer) dan data input, x , mengalir dari satu lapis ke lapis

berikutnya secara berurutan. Dalam tiap-tiap lapis, input-input ditransformasi

kedalam lapis secara nonlinear oleh elemen-elemen proses dan kemudian

diproses maju ke lapis berikutnya. Akhirnya, nilai-nilai output y , yang dapat

berupa nilai-nilai skalar atau vektor, dihitung pada lapis output.

Gambar 3.1 adalah suatu contoh dari bentuk khusus FFNN dengan satu

lapis tersembunyi yang lebih dikenal dengan FFNN dengan satu lapis tersem-

bunyi yang terdiri dari q unit neuron dan lapis output yang hanya terdiri dari satu

unit neuron. Dalam arsitektur ini, nilai-nilai respon atau output y dihitung dengan

++= ∑∑

==

p

i

ohjki

hji

q

j

hj

oj

ok bbxwfwfy

1)(

1)( ])([ˆ , (3.1)

dengan :

)(kix = variabel input sebanyak p , ),,2,1( pi L=

)(ˆ ky = nilai dugaan dari variabel output

k = indeks pasangan data input-target ),( )()( kki yx , nk ,,2,1 K= hjiw = bobot dari input ke- i yang menuju neuron ke- j pada lapis

tersembunyi, ),,2,1( qj L=

Bab III. Feedforward Neural Networks

45

hjb = bias pada neuron ke- j pada lapis tersembunyi, ),,2,1( qj L= hjf = fungsi aktifasi di neuron ke- j pada lapis tersembunyi ojw = bobot dari neuron ke- j di lapis tersembunyi yang menuju neuron

pada lapis output

ob = bias pada neuron di lapis output of = fungsi aktifasi pada neuron di lapis output.

Lapis Output Lapis Input Lapis Tersembunyi (Variabel Dependen/

(Variabel Independen) (q unit neuron) Respons)

Gambar 3.1. Arsitektur FFNN dengan satu lapis tersembunyi, p unit input, q unit neuron di lapis tersembunyi, dan satu unit neuron output.

Bentuk nonlinear fungsi y terjadi melalui suatu fungsi yang disebut fungsi

aktifasi hjf pada lapis tersembunyi dan of pada lapis output, biasanya fungsi

halus atau smooth seperti fungsi logistik sigmoid atau fungsi tanh.

Beberapa notasi akan digunakan untuk memperjelas penjabaran proses

input-output FFNN pada Gambar 3.1 di atas. Superscript “ h ” digunakan sebagai

indeks yang menyatakan lapis tersembunyi dan “ o ” untuk indeks yang

menyatakan lapis output. Digunakan juga hjv untuk menyatakan suatu vektor

Y

hjiw

hjb 1

X1

X2

Xp

)(1 ⋅hf

)(2 ⋅hf

)(3 ⋅hf

)(⋅hqf

M

M )(⋅•

of

ojw

1

ob


46

nilai-nilai setelah proses penjumlahan input dan bobot-bobot (bias termasuk di

dalamnya) pada lapis tersembunyi di neuron ke- j , yaitu

∑=

+=p

i

hji

hji

hj bxwv

1, (3.2a)

atau untuk data ke k diperoleh

∑=

+=p

i

hjki

hji

hkj bxwv

1)()( . (3.2b)

Output pada lapis tersembunyi yang terproses di neuron ke- j adalah

)( hj

hj

hj vfa = , (3.3a)


)()(1

)()()( ∑=

+==p

i

hjki

hji

hj

hkj

hj

hkj bxwfvfa . (3.3b)

Dengan cara yang sama, maka beberapa notasi yang menyatakan

penjumlahan input dan bobot-bobot pada lapis output adalah

oq

j

hj

oj

o bawv += ∑=1

, (3.4a)


oq

j

hkj

oj

ok bawv += ∑

=1)()( . (3.4b)

Output pada lapis output adalah

)(ˆ )()()(ok

ookk vfay == . (3.5)

Dengan demikian, hubungan antara input )(kix , pi ,,2,1 K= dan nk ,,2,1 K= ,

dengan output )(ˆ ky adalah

∑=

+=q

j

ohkj

hj

oj

ok bvfwfy

1)()( ))((ˆ

++= ∑∑

==

p

i

ohjki

hji

q

j

hj

oj

o bbxwfwf1

)(1

])([

),,,( )()(2)(1 kpkk xxxF K= (3.6)


47

Pemetaan secara keseluruhan yang terjadi pada FFNN ini selanjutnya dapat

ditulis dalam bentuk

=

),,,(

),,,(),,,(

ˆ

ˆˆ

)()(2)(1

)2()2(2)2(1

)1()1(2)1(1

)(

)2(

)1(

npnn

p

p

n xxxF

xxxFxxxF

y

yy

K

M

K

K

M. (3.7)

3.1 Algoritma Backpropagation

Pada bagian ini akan diberikan hasil-hasil kajian teoritik yaitu penurunan

dan pembuktian algoritma backpropagation pada FFNN yang banyak digunakan

untuk analisis runtun waktu dan regresi. Hasil kajian ini telah dipublikasikan dan

secara lengkap dapat dilihat pada Suhartono dkk. (2005d).

Ripley (1996) menyatakan bahwa keberadaan pendekatan suatu fungsi

adalah tidak ada gunanya jika tidak diketahui cara untuk menemukan

pendekatan tersebut. Hal inilah yang mendorong banyaknya penelitian tentang

neural network selama bertahun-tahun. Ide dasar tentang pendekatan dengan

NN diawali oleh pembelajaran Rumelhart–McClelland (1986) yaitu untuk

melakukan fitting terhadap parameter-parameter fungsi dengan metode least

squares. Misalkan kita mempunyai beberapa pasang sampel input dan target

),( )()( kk yx , dan output dari network adalah ),(ˆ wxy f= . Maka, vektor parameter

w dipilih dengan cara meminimumkan

∑=

−=n

kkk xfyQ

1

2)()( )];([)( ww (3.1.1)

seperti yang dilakukan dalam regresi nonlinear (Bates dan Watts, 1998; Seber

dan Wild, 1989).

Secara umum, aplikasi nonlinear least squares pada neural networks

terbagi dalam dua pendekatan untuk mengupdate bobot-bobot, yaitu yang

dikenal dengan adaptasi off-line dan on-line. Pada adaptasi off-line, bobot-bobot

diupdate pada setiap pasangan input-output, sedangkan di adaptasi on-line atau

yang dikenal dengan batch mode, bobot-bobot hanya diupdate setelah seluruh


48

pasangan data input-output pada data training terproses. Bagian ini hanya

menjelaskan aplikasi dari algoritma nonlinear least squares pada training yang

diproses secara batch mode dari suatu FFNN.

Gradient descent merupakan salah satu dari kelompok metode optimisasi

yang paling tua. Metode ini berdasarkan pada suatu pendekatan linear dari

fungsi kesalahan (error) yaitu

)()()( wwwww QQQ T ′∆+≈∆+ . (3.1.2)

Bobot-bobot diupdate melalui

0 ),( >′−=∆ ηη ww Q , (3.1.3)

dengan η adalah suatu koefisien pembelajaran (learning rate).

Berikut ini adalah corollary yang merupakan modifikasi algoritma back-

propagation dengan metode gradient descent dari Moller (1997). Corollary ini

adalah khusus untuk mendapatkan bobot-bobot pada model FFNN yang

digunakan untuk peramalan runtun waktu univariat seperti pada Gambar 3.1.

Corollary 3.1.1. )(wQ′ atau ww ∂∂ /)(Q adalah gradien dari n pasangan data

input-target yang dapat dihitung dengan satu proses langkah maju (forward

propagation) dan satu proses langkah mundur (backward propagation). Jika

pemrosesan maju dari input ke lapis tersembunyi di neuron ke- j adalah

)( )()(h

kjhj

hkj vfa = , dengan ∑

=+=

p

i

hjki

hji

hkj bxwv

1)()( ,

dan pemrosesan maju dari lapis tersembunyi ke lapis output adalah

)( )()(ok

ook vfa = , dengan ∑

=+=

q

j

ohkj

oj

ok bawv

1)()( ,

maka pemrosesan mundur dari lapis output ke lapis tersembunyi (untuk update

bobot-bobot pada lapis output) adalah

hkj

n

k

oko

ja

wQ

)(1

)()(

∑=

−=∂

∂δ

w , dan ∑=

−=∂

∂ n

k

okob

Q1

)()(

δw , (3.1.4)

dengan

−= ∑

=

′q

l

hkl

ol

okk

ok awfyy

1)()()()( ]ˆ[δ ,


49

dan pemrosesan mundur dari lapis tersembunyi ke input (untuk update bobot-

bobot pada lapis tersembunyi) adalah

)(1

)()(

kin

k

hkjh

jix

wQ

∑=

−=∂

∂δ

w , dan ∑=

−=∂

∂ n

k

hkjh

jbQ

1)(

)(δ

w , (3.1.5)

dengan )]([ )()()(h

kjhj

oj

ok

hkj nfw ′= δδ .

Bukti: Perhatikan kembali arsitektur umum dari suatu FFNN dengan satu lapis

tersembunyi seperti pada Gambar 3.1 di atas dan definisikan suatu fungsi biaya

sebagai suatu jumlahan dari kuadrat error data training

∑=

−=n

kkk yyQ

1

2)()( )ˆ(

21 (3.1.6)

dimana :

)(ky = target (nilai sebenarnya dari variabel output atau respon)

)(ˆ ky = output dari lapis terakhir (lapis output)

k = indeks pasangan input-target yaitu ),( )()( kk yx yang digunakan pada

training dengan nk ,,2,1 K= .

Seperti yang dijelaskan sebelumnya, backpropagation adalah suatu

algoritma untuk mendapatkan bobot-bobot pada tiap-tiap lapis yang dinotasikan

dengan hjiw dan o

jw , dengan cara meminimumkan nilai Q seperti Persamaan

(3.1.6) pada keseluruhan himpunan training. Untuk penyederhanaan notasi,

digunakan simbol w untuk vektor

,,2,1 ,,,2,1:, qjpiww oj

hji KK ===w .

Sehingga fungsi obyektif pada Persamaan (3.1.6) yang akan diminimalkan dapat

ditulis

∑ ∑ ∑= = =

++−=n

k

q

j

ohj

p

iki

hji

hj

oj

ok bbxwfwfyQ

1

2

1 1)()( ])))((([

21)(w . (3.1.7)

Penyelesaian masalah optimisasi di atas akan dilakukan dengan meng-

gunakan suatu algoritma gradient, yaitu


50

www

dQ )(∂

−=∆ η . (3.1.8a)

atau

wwwwd

Q mmm

)()()1( )(∂

−=+ η . (3.1.8b)

Untuk memformulasikan algoritma tersebut, dibutuhkan perhitungan turunan

parsial dari Q terhadap tiap-tiap komponen w . Pertama, akan dilakukan

perhitungan turunan parsial dari Q terhadap ojw . Untuk itu, tulis kembali

persamaan (3.1.6) dalam

∑ ∑= =

+−=n

k

q

l

ohkl

ol

ok bawfyQ

1

2

1)()( ])([

21)(w , (3.1.9)

dengan ql ,,2,1 K= dan

)()(1

)()()( ∑=

+==p

i

hjki

hli

hl

hkl

hl

hkl bxwfvfa .

Dengan menggunakan aturan berantai pada perhitungan turunan parsial, yaitu

oj

ok

ok

ok

ok

oj w

v

v

a

aQ

wQ

∂

∂

∂

∂

∂

∂=

∂

∂ )(

)(

)(

)(

)()( ww , (3.1.10)

diperoleh

hkj

q

l

ohkl

ol

on

kkko

jabawfyy

wQ

)(1

)(1

)()( ]ˆ[)(

+−−=

∂

∂∑∑=

′

=

w , (3.1.11)

dengan :'of ℜ → ℜ adalah turunan dari of terhadap okv )( . Untuk menyeder-

hanakan notasi, digunakan

+−= ∑

=

′q

l

ohkl

ol

okk

ok bawfyy

1)()()()( ]ˆ[δ , (3.1.12)

sehingga diperoleh

hkj

n

k

oko

ja

wQ

)(1

)()(

∑=

−=∂

∂δ

w . o

Melalui cara yang sama, yaitu dengan aturan berantai, perhitungan

turunan parsial dari Q terhadap ob adalah


51

o

ok

ok

ok

ok

o b

v

v

a

aQ

bQ

∂

∂

∂

∂

∂

∂=

∂

∂ )(

)(

)(

)(

)()( ww , (3.1.13)

akan diperoleh

+−−=

∂

∂∑∑=

′

=

oq

l

hkl

ol

on

kkko

bawfyyb

Q1

)(1

)()( ]ˆ[)(w , (3.1.14)

atau

∑=

−=∂

∂ n

k

okob

Q1

)()(

δw , o

dengan ok )(δ seperti pada persamaan (3.1.12).

Selanjutnya akan dilakukan penurunan perhitungan turunan parsial dari

Q terhadap hjiw . Melalui aturan berantai pada perhitungan turunan parsial, yaitu

hji

hkj

hkj

hkj

hkj

ok

ok

ok

ok

hji w

v

v

a

a

v

v

a

aQ

wQ

∂

∂

∂

∂

∂

∂

∂

∂

∂

∂=

∂

∂ )(

)(

)(

)(

)(

)(

)(

)(

)()( ww , (3.1.15)

sehingga diperoleh

)(1

)(1

)(1

)()( )ˆ()(ki

q

l

hjki

hli

hj

oj

q

l

ohkl

ol

n

k

okkh

jixbxwfwbawfyy

wQ

+

+−−=

∂

∂∑∑∑=

′

==

′w , (3.1.16)

dengan :hjf ′ ℜ → ℜ adalah turunan dari h

jf ′ terhadap hkjv )( . Penyederhanaan

notasi ini dengan menggunakan ok)(δ seperti pada persamaan (3.1.12), diperoleh

)()(1

)( )]([)()(ki

hkj

hj

n

k

oj

okh

jixvfw

wQ ′

=∑−=

∂

∂δ

w , (3.1.17)

atau

)(1

)()(

kin

k

hkjh

jix

wQ

∑=

−=∂

∂δ

w , dengan )]([ )()()(h

kjhj

oj

ok

hkj vfw ′= δδ . o

Dengan cara yang sama, penurunan perhitungan turunan parsial dari Q

terhadap hjb dengan aturan berantai, yaitu


52

hj

hkj

hkj

hkj

hkj

ok

ok

ok

ok

hj b

v

v

a

a

v

v

a

aQ

bQ

∂

∂

∂

∂

∂

∂

∂

∂

∂

∂=

∂

∂ )(

)(

)(

)(

)(

)(

)(

)(

)()( ww , (3.1.18)

menghasilkan

+

+−−=

∂

∂∑∑∑=

′

==

′q

l

hjki

hli

hj

oj

q

l

ohkl

ol

n

k

okkh

jbxwfwbawfyy

bQ

1)(

1)(

1)()( )ˆ()(w , (3.1.19)

atau

)]([)()()(

1)(

hkj

hj

n

k

oj

okh

jvfw

bQ ′

=∑−=

∂

∂δ

w , (3.1.20)

atau

∑=

−=∂

∂ n

k

hkjh

jbQ

1)(

)(δ

w , dengan )]([ )()()(h

kjhj

oj

ok

hkj vfw ′= δδ . o

Pada tahap ini, formula dari algoritma gradien untuk mengupdate bobot-

bobot dari FFNN telah dapat diturunkan. Dua persamaan update untuk bobot hjiw , h

jb , ojw , dan ob akan diberikan secara terpisah, yaitu

a. Untuk updating bobot-bobot dan bias pada lapis output :

∑=

++=

n

k

mhkj

mok

moj

moj aww

1

)()(

)()(

)()1(δη , (3.1.21a)

∑=

++=

n

k

mok

momo bb1

)()(

)()1(δη . (3.1.21b)

b. Untuk updating bobot-bobot dan bias pada lapis tersembunyi :

)(1

)()(

)()1(ki

n

k

mhkj

mhji

mhji xww ∑

=

++= δη , (3.1.22a)

∑=

++=

n

k

mhkj

mhj

mhj bb

1

)()(

)()1(δη . (3.1.22b)

dengan η adalah koefisien pembelajaran (learning rate).


53

Ilustrasi jalannya persamaan update untuk bobot-bobot di lapis output ojw

dapat dilihat pada Gambar 3.2, sedangkan untuk di lapis tersembunyi hjiw dapat

dilihat pada Gambar 3.3.

Gambar 3.2. Ilustrasi dari persamaan update bobot-bobot pada lapis output

Persamaan update di atas dikenal dalam beberapa literatur sebagai algoritma

backpropagation. Alasan untuk nama “backpropagation” adalah kenyataan

bahwa selisih-selisih output dalam )(

)(mo

kδ diproses mundur dari lapis output

menuju ke lapis tersembunyi, yang kemudian digunakan dalam persamaan

update untuk bobot-bobot pada lapis tersembunyi, seperti yang diilustrasikan

pada Gambar 3.3.

Sekali lagi, dalam bagian ini pembahasan hanya difokuskan pada FFNN

(MLP) dengan satu lapis tersembunyi dan satu neuron pada lapis output. Secara


54

umum, persamaan update untuk FFNN dengan lebih dari satu lapis tersembunyi

dan beberapa neuron di lapis output juga dapat diturunkan seperti di atas.

Gambar 3.3. Ilustrasi dari persamaan update untuk bobot-bobot pada lapis tersembunyi

3.2 Konsistensi Estimator Backpropagation

Pada bagian sebelumnya telah dijelaskan bahwa tujuan utama dari

pembelajaran network melalui backpropagatian adalah menemukan suatu

penyelesaian *w pada suatu permasalahan optimisasi )(minarg wQWw∈ yaitu

( )2/)),([()(minarg 2* www XfYEQWw

−==∈

, (3.2.1)


55

dengan *w adalah indeks dari bobot network yang optimal. Untuk kesamaan

notasi maka untuk selanjutnya output network pada Persamaan (3.1) akan ditulis

dalam bentuk

′+== ∑=

q

jjj xFfo

10 )(),( γψββwx , (3.2.2)

dengan ),,,( 10 pxxx K=x adalah input-input network, ),( ′′′= γβw adalah

bobot-bobot network secara keseluruhan, ),,,( 10 ′= qβββ Kβ adalah bobot-

bobot dari lapis tersembunyi ke output, dan ),,,( 21 ′′′′= qγγγγ K adalah bobot-

bobot network dari input ke lapis tersembunyi, ),,,( 10 ′≡ jpjjj γγγ Kγ .

Dengan penalti kuadrat error, pembelajaran pada network harus sampai

pada *w , yang menyelesaikan

( )2/)]|(([]2/)),([(min 22 XYEYEXfYEWw

−=−∈

w

))2/)],()|(([ 2wXfXYEE −+ . (3.2.3)

Menemukan *w merupakan permasalahan yang secara tepat sama dengan

mendapatkan parameter-parameter dari suatu pendekatan least squares yang

optimal untuk )|( XYE , ekspektasi bersyarat dari Y diberikan X .

Secara khusus, jika diberikan pasangan input dan target ),( tt XY dengan

nt ,,2,1 K= , yang diambil secara random dari suatu populasi tertentu, maka nw

adalah estimator least squares yang nonlinear pada permasalahan optimisasi

∑=

−

∈−=

n

tttn

WwXfYnQ

1

21 2/)),(()(minarg ww . (3.2.4)

Regresi nonlinear merupakan metode yang telah dianalisis secara lengkap dalam

literatur-literatur statistik dan ekonometrika. Pada bagian ini akan diberikan kajian

teoritis berkaitan dengan sifat-sifat estimator backpropagation nw , khususnya

tentang konsistensi estimator tersebut. Sebagian besar kajian ini dapat dilihat

pada White (1989a, 1989b).

Misalkan bahwa estimator-estimator m dari nw adalah memenuhi

∑ =− →n

tsa

ntZmn 1..1 0)ˆ,( w , dengan llvm ℜ→ℜ×ℜ: . Estimator-estimator m

secara umum adalah konsisten untuk suatu penyelesaian *w pada persamaan


56

0)),(( =wZmE t . Pendekatan stokastik memberikan suatu metode alternatif

untuk mengestimasi *w . Hasil-hasil untuk backpropagation selanjutnya meng-

ikuti suatu kasus khusus dari estimasi m secara rekursif.

Berikut ini adalah beberapa notasi yang digunakan. Untuk suatu vektor

1×v yaitu ),,( 1 ′= vzz Kz , dapat ditulis bahwa ∑ == vi iz1

2/12 )(|| z . Untuk lℜ⊂W

dan nw suatu barisan vektor 1×l , Ww →n berarti bahwa

0||inf →−∈ ww nWw untuk ∞→n . Kita tulis ∞→nw ketika ∞→|| nw .

Untuk lℜ∈*w dan 0>ε , |:| ** εε <−≡ wwwS .

Proposisi 3.2.1. (White, 1989b) Misalkan nZ adalah suatu barisan vektor

1×v yang random IID sedemikian hingga ∞<∆<|| nZ . Misalkan llvm ℜ→ℜ×ℜ: adalah dapat diturunkan secara kontinu pada lv ℜ×ℜ dan

anggap bahwa untuk setiap w dalam lℜ , ∞<≡ )),(()( wZnmEwM . Misalkan

+ℜ∈nη adalah suatu barisan menurun sedemikian hingga ∑∞

=∞=

1n nη ,

∞<− −−

−→∞ )sup(lim 1

11

nnn ηη dan ∑∞

=∞<

1ndnη untuk suatu 1>d . Definisikan suatu

estimator m rekursif )~,(~~11 −− += nnnnn m wZww η untuk ),2,1( K=n , dengan

lℜ∈0~w adalah sebarang.

(a). Anggap bahwa ada ℜ→ℜlQ : dapat diturunkan secara kontinu dua kali

sedemikian hingga 0)()( ≤∇ ww MQ untuk semua w dalam lℜ . Maka

salah satu 0)()(:~ * =∇≡→ wwwWw MQn atau ∞→nw~ dengan

probabilitas 1.

(b). Anggap bahwa lℜ∈*w adalah sedemikian hingga 0]~Pr[ * >→ εSnw

untuk 0>ε . Maka 0)( * =wM . Jika, sebagai tambahan, M adalah dapat

diturunkan secara kontinyu dalam persekitaran dari *w dengan

)( ** wMM ∇≡∇ terbatas, dan jika )),(),(( *** ′≡ wZwZJ nn mmE adalah

terbatas dan definit positif, maka *M∇ mempunyai semua nilai eigen

dalam setengah sisi sebelah kiri.

(c). Anggap bahwa kondisi dari bagian (a) terpenuhi, bahwa )()( ′−∇= ww QM ,

bahwa )(wQ mempunyai titik-titik stasioner yang terisolasi, dan bahwa

kondisi-kondisi dari bagian (b) terpenuhi untuk setiap ** Ww ∈

0)(: =∇= ww Q .


57

Maka untuk ∞→n salah satu nw~ cenderung ke suatu minimum lokal dari

)(wQ dengan probabilitas 1 atau ∞→nw~ dengan probabilitas 1.

Untuk mengaplikasikan Proposisi 3.2.1 pada metode backpropagation di

FFNN dengan satu lapis tersembunyi, diperlukan beberapa kondisi formal yang

sesuai.

Asumsi 3.2.1. Suatu barisan pelatihan atau training ),( ′′′= nnn XYZ adalah

suatu barisan vektor random IID sedemikian hingga ∞<∆<|| nZ . nY

mempunyai nilai-nilai yang berada dalam pℜ , nX mempunyai nilai-nilai dalam

,rℜ ∈pr, ℕ, prv +≡ .

Asumsi 3.2.2. Diberikan input rx ℜ∈ , output network diberikan dengan

=ko ∑ = ′+ qj kjjjkkF 10 ))(( βγψβ x ),( wxkf≡ , pk ,,2,1 K= , dengan ℜ→ℜ:kF

dan ]1,0[: ≡Ι→ℜjψ . Suatu fungsi ),,( 1 ′≡ pFFF K , ),,( 1 ′≡ qψψψ K mem-

punyai elemen-elemen yang dapat diturunkan secara kontinu sampai orde 2

pada ℜ . Kita tulis lℜ∈′′≡ ),( γβw , prpql )( +≡ dengan ),,( 1 ′′′≡ qγγγ K ,

),,,( 110 ′≡ −jrjjj γγγ Kγ , ),,,( 21 ′′′′≡ pββββ K , ),,,( 10 ′≡ kqkkk βββ Kβ .

Perlu dicatat bahwa fungsi kF dan jψ dapat semuanya berbeda dan

tambahan suatu bias pada lapis tersembunyi dengan mencantumkan 0kβ . Bias

pada lapis input dilakukan dengan menggunakan 10 =nX . Fungsi kF tidak harus

suatu pemetaan ke suatu unit interval; boleh juga memilih kF sebagai suatu

fungsi identitas.

Asumsi 3.2.3. +ℜ∈nη adalah suatu barisan menurun sedemikian hingga

(a). ∑∞

=

∞=1n

nη ,

(b). ∞<− −−

−

→∞)sup(lim 1

11

nnnηη , dan

(c). ∑∞

=

∞<1n

dnη untuk suatu 1>d .


58

Berikut adalah notasi-notasi yang digunakan. Misalkan ),,( 1 ′≡ pff Kf ,

dan misalkan f∇ adalah suatu matriks Jacobian lp × dari f terhadap w .

Misalkan ))(()( ww nqEQ = , dengan 2/))(())(()( www nnnnn fYfYq −′−=

[sedemikian hingga ))(()()( www nnnn fYfq −′−∇=′∇ ], dan tetapkan

)( ** wnn qq ∇=∇ . Tulis )~(~1−≡ nnn ff w dan )~(~

1−∇=∇ nnn ff w .

Teorema 3.2.1. (White, 1989b) Diberikan Asumsi 3.2.1–3.2.3, definisikan suatu

estimator backpropagation

)~(~~~1 nnnnnn fYf −′∇+= − ηww , K,2,1=n . (3.2.5)

dengan 0~w adalah sembarang. Maka salah satu dari

*~ Ww →n 0))((: =∇= ww nqE dengan probabilitas 1 atau ∞→nw~ dengan

probabilitas 1. Jika, sebagai tambahan, )(wQ mempunyai titik-titik stasioner

yang terisolasi sedemikian hingga )'( ***nn qqE ∇∇=J adalah definit positif untuk

setiap ∗∗ ∈ Ww , maka salah satu nw~ konvergen ke suatu minimum lokal dari

)(wQ dengan probabilitas 1 atau ∞→nw~ dengan probabilitas 1.

Dengan demikian estimator backpropagation adalah divergen atau

konvergen ke suatu titik stasioner dari )(wQ . Jika titik-titik stationer ini memenuhi

suatu kondisi yang dapat diidentifikasi secara lokal, maka backpropagation akan

divergen atau konvergen ke suatu minimum lokal dari )(wQ . Kondisi yang dapat

diidentifikasi ini mengesampingkan kondisi tepat dalam )(wQ , disebabkan oleh

input atau unit di lapis tersembunyi yang redundant. Kondisi dapat diidentifikasi

secara lokal tidak mengesampingkan suatu kemungkinan akan diperolehnya

minimum global yang berganda.

Hasil ini memformalkan keterbatasan dari backpropagation, yaitu dapat

berhenti pada minimum lokal atau pada titik-titik belok, atau divergen. Sehingga

adalah masuk akal untuk menetapkan nilai-nilai yang berbeda untuk 0~w ,

misalkan saja i0w ),,2,1( Ni K= , mengaplikasikan suatu algoritma untuk

mendapatkan inw~ ),,2,1( Ni K= , dan kemudian memilih suatu estimator yang

memberikan nilai terkecil untuk ∑ =−≡ n

tint

in qnQ 1

1 )~(~ w . Ini biasanya menghasilkan

suatu estimasi yang konsisten untuk suatu minimum lokal, walaupun tidak ada


59

jaminan bahwa hasil itu akan mencapai nilai yang dekat dengan suatu minimum

global.

Untuk kelengkapan terhadap jaminan konvergen dari estimator pada

pembelajaran network seperti pada Persamaan (3.2.4) diberikan teorema

sebagai berikut.

Teorema 3.2.2. (White, 1989b) Misalkan ),F,( PΩ adalah suatu ruang

probabilitas lengkap yang didefinisikan pada suatu barisan variabel random yang

IID ,:( vtt ΖZ ℜ→Ω= ),2,1 K=t , ∈v ℕ ,2,1 K≡ . Misalkan ℜ→×ℜ Wl v:

adalah suatu fungsi sedemikian hingga untuk setiap w dalam W , suatu sub-

himpunan kompak dari sℜ , ∈s ℕ, ),( wl ⋅ adalah ukuran- vΒ (dengan vΒ adalah

suatu σ -field Borel dengan himpunan-himpunan terbuka dari vℜ ), dan untuk

setiap z dalam vℜ , ),( ⋅zl adalah kontinu pada W . Anggap selanjutnya bahwa

ada +ℜ→ℜvd : sedemikian hingga untuk semua w dalam W , )(|),(| zdzl ≤w

dan ∞<))(( tZdE (yaitu, l terdominasi pada W oleh suatu fungsi yang dapat

diintegralkan).

Maka untuk setiap K,2,1=n ada suatu penyelesaian nw untuk per-

masalahan ∑ =−

∈ ≡ nt tnWw lnQ 1

1 ),()(ˆmin wZw dan ,..ˆ * Psan −→ Ww dengan

)()(: *** wwWwW QQ ≤∈≡ untuk semua Ww ∈ , )),(()( wZw tlEQ = .

3.3 Sifat Normalitas Asimtotis Estimator Backpropagation

Konsep formal yang tepat untuk mempelajari distribusi limit (asimtotis)

nw adalah konsep-konsep tentang konvergensi dalam distribusi seperti yang

telah ditulis pada Bab II. Distribusi asimtotis nw tergantung pada sifat dasar *W .

Secara umum *W mungkin terdiri dari titik-titik yang terisolasi dan/atau bagian

datar yang terisolasi. Jika konvergensi ke suatu bagian datar terjadi, maka bobot-

bobot taksisran nw mempunyai suatu distribusi asimtotis yang dapat dianalisis

dengan menggunakan teori dari Phillips (1989) tentang model yang teridentifikasi

secara parsial. Distribusi-distribusi ini termasuk dalam keluarga Gaussian

gabungan asimtotis atau “limiting mixed Gaussian” (LMG) seperti yang


60

dikenalkan oleh Phillips. Ketika *w adalah unik secara lokal, model dikatakan

teridentifikasi secara lokal dan bobot-bobot taksiran nw yang konvergen ke *w

mempunyai distribusi normal multivariat asimtotis.

Berikut ini adalah teorema-teorema yang berkaitan dengan kondisi-

kondisi yang memastikan bahwa nw mempunyai distribusi normal multivariat

asimtotis.

Teorema 3.3.1. (White, 1989b) Misalkan ),F,( PΩ , tZ , W dan l adalah

seperti dalam Teorema 3.2.2, dan anggap bahwa Psan −→ .. ˆ *ww dengan

suatu elemen terisolasi pada *W bagian dalam (interior) untuk W .

Anggap sebagai tambahan bahwa untuk setiap z dalam vℜ , ),( ⋅zl

adalah dapat diturunkan secara kontinu sampai orde 2 pada ∫ W ; bahwa

∞<∇′∇ )),(),(( ** ww tt ZlZlE ; bahwa setiap elemen dari l2∇ adalah

terdominasi pada W suatu fungsi yang dapat diintegralkan; dan bahwa

)),(( *2* wA tZlE ∇≡ dan )),(),(( *** ′∇∇≡ wwB tt ZlZlE matriks-matriks non-

singular berukuran )( ss × , dengan ∇ dan 2∇ adalah notasi dari gradien )1( ×s

dan operator-operator Hessian )( ss × terhadap w .

Maka ),()ˆ( ** C0ww Ν→− dnn , dengan 11* ∗−∗∗−= ABAC . Jika

sebagai tambahan, setiap elemen ll ′∇∇ adalah terdominasi pada W oleh suatu

fungsi yang dapat diintegralkan, maka Psan −→ ∗ .. ˆ CC , dengan 11 ˆˆˆˆ −−= nnnn ABAC , dan

n

Zlnt nt

n∑ = ∇

= 12 )ˆ,(ˆ w

A , n

ZlZlnt ntnt

n∑ = ′∇∇

= 1 )ˆ,()ˆ,(ˆ wwB .

Proposisi 3.3.1. (White, 1989a) Misalkan kondisi-kondisi Proposisi 3.2.1(a,b)

terpenuhi, dan anggap juga bahwa ∞<∆<|),(| wnZm a.s. untuk semua w

dalam sℜ . Misalkan ∗ζ adalah nilai maksimum bagian real dari nilai-nilai eigen ∗∇M dan anggap ∗ζ 2

1−< . Definisikan )],(var[)( ww nZmJ ≡ dan anggap J

adalah kontinyu pada suatu persekitaran dari *w . Tetapkan )( ∗∗ = wJJ dan 1−= nnη .


61

Maka suatu barisan elemen-elemen random )(aTn dari ]1,0[lCR dengan

normsup , didefinisikan dengan

2/1][1][

2/1][ )])([(

)(n

SSnananS

aT nananan

−−+= + , ]1,0[∈a ,

dengan )~( ∗−= ww nn nS , konvergen dalam distribusi ke suatu proses Markov

Gaussian G dengan

dtaaG a ))((lnexp[)])(exp[(ln)( ],0( IMMI +∇−×∇+= ∗∗ ∫ W )(t , ]1,0(∈a ,

dengan W adalah suatu gerak Brownian dalam sℜ , dengan W 0)0( = , dan

(E W 0))1( = , serta (E W )1( W ))1( ′ ∗= J . Secara khusus,

),()~(2/1 ∗∗ Ν→− F0ww dnn ,

dengan ∫ +∇−+∇−= ∗∗∗∗]1,0(

']))[(lnexp(]))[(lnexp( dttt IMJIMF adalah suatu

penyelesaian yang unik pada persamaan

)2/1()2/1('+∇++∇ ∗∗∗∗ MFFM ∗−= J .

Ketika ∗∇M adalah simetrik, 1−∗ = PHPF , dengan P adalah matriks ortogonal

sedemikian hingga ∗− −∇= MPΞΞ 1 dengan Ξ suatu matriks diagonal yang

terdiri atas suatu nilai-nilai eigen (real), ),,( 1 sλλ K , dari ∗∇− M dalam urutan

menurun, dan H adalah suatu matriks ss × dengan elemen-elemen

)1( −+=

∗

ji

ijij

KH

λλ, sji ,,2,1, K= ,

dengan PJPK ∗−∗∗ == 1][ ijK .

Untuk menerapkan Proposisi 3.3.1 pada backpropagation, diperlukan

penguatan Asumsi 3.2.2 dan 3.2.3 seperti yang dijelaskan berikut ini.

Asumsi 3.3.1. Asumsi 3.2.2 terpenuhi, dan elemen-elemen dari F dan turunan-

turunan dari F dan ψ adalah terbatas.


62

Secara tegas, kondisi ini mengenyampingkan suatu kasus dimana F

adalah suatu pemetaan identitas. Bagaimanapun, gunakan λλ =)(kF untuk

∞<∆≤|| λ dan kF adalah fungsi yang halus (smooth) dan terbatas untuk

∆>|| λ ( ∆ besar), membolehkan pendekatan yang identik untuk hasil-hasil yang

diperoleh ketika kF adalah suatu pemetaan identitas, diberikan batasan pada tY .

Asumsi 3.3.2. Untuk K,2,1=n , 1−= nn δη , 0>δ .

Teorema 3.3.2. (White, 1989b) Diberikan Asumsi 3.2.1, 3.3.1 dan 3.3.2,

definisikan nw~ seperti pada Persamaan (3.2.5). Anggap bahwa ~ .. ∗→ ww san ,

∗w suatu titik stasioner yang terisolasi pada )(wQ dengan ∗J definit positif.

Lebih lanjut, anggap bahwa 1)2( −∗> λδ , dengan 0>∗λ adalah nilai eigen

terkecil dari ∗∇ Q2 )(2 ∗∇≡ wQ .

Maka dengan )(aTn seperti dalam Proposisi 3.3.1, )(aTn konvergen

dalam distribusi ke suatu proses Markov Gaussian G dengan didefinisikan

dengan

]))[exp((ln)( 2 ∗∇−= QaaG δδ I ∫ −∇ ∗],0(

2 )])(exp[(lna Qt Iδ d W )(t , ]1,0(∈a ,

dengan W adalah suatu gerak Brownian dalam sℜ , dengan W 0)0( = , dan

(E W 0))1( = , serta (E W )1( W ))1( ′ ∗= J . Secara khusus,

),()~(2/1 ∗∗ Ν→− F0ww dnn ,

dengan 1−∗ = PHPF , dan P adalah matriks ortogonal sedemikian hingga 1−PΞΞ ∗∇= Q2 dengan Ξ suatu matriks diagonal yang terdiri atas suatu nilai-

nilai eigen ),,( 1 sλλ K dari ∗∇ Q2 dalam urutan menurun (semakin kecil), dan H

adalah suatu matriks ss × dengan elemen-elemen

)1(2 −+=

∗

ji

ijij

KH

δλδλδ, sji ,,2,1, K= ,

dengan PJPK ∗−∗∗ == 1][ ijK .

Berdasarkan hasil-hasil teori di atas, dengan demikian dapat dijelaskan

bahwa backpropagation menghasilkan estimator dengan perilaku asimtotis yang


63

dapat digambarkan secara tepat oleh suatu proses Gaussian tertentu. Hal ini

memberikan kemungkinan untuk melakukan uji hipotesis tentang kekuatan

hubungan dalam networks, yang mencakup hipotesis tentang relevansi atau

signifikansi “variabel-variabel input” dan “unit-unit di lapis tersembunyi”.

White (1989a) telah melakukan kajian teoritik tentang perbaikan hasil

pembelajaran pada networks. Dalam hal ini, teknik rekursif murni dari back-

propagation dihilangkan. White membuktikan bahwa metode pembelajaran untuk

menyelesaikan Persamaan (3.2.4) secara lokal untuk performansi kuadrat

kesalahan adalah relatif efisien secara asimtotis dibanding metode back-

propagation. Berikut ini adalah beberapa teorema dihasilkan dalam kajian

tersebut.

Teorema 3.3.3. (White, 1989a). Misalkan ssM ℜ→ℜ: mempunyai nol unik ∗w

bagian dalam untuk suatu himpunan kompak yang konvek sℜ⊂W dan anggap

M dapat diturunkan secara kontinu pada W dengan ∗∇M terhingga dan

nonsingular. Misalkan ,(Ω ),F P adalah suatu ruang probabilitas, dan anggap

ada suatu barisan : snM ℜ→×Ω W sedemikian hingga untuk setiap w

dalam W , ),( w⋅nM adalah measureable- F dan untuk setiap w dalam

),(, ⋅Ω wnM dapat diturunkan secara kontinu pada W , dengan Jacobian

),( ⋅∇ wM n . Anggap bahwa untuk suatu matriks definit positif ∗B ,

),(),(2/1 ∗∗ Ν→⋅ B0w dnMn ,

dan bahwa 0)(),( →−⋅ ww MM n , 0)(),( →∇−⋅∇ ww MM n a.s. )( P− secara

seragam pada W .

Misalkan :~ sn ℜ→Ωw adalah suatu barisan yang dapat diukur sede-

mikian hingga ~ .. ∗→ ww san dan )~(2/1 ∗− ww nn adalah )1(pO . Maka, dengan

)~,(~nnn MM w⋅≡ dan )~,(~

nnn MM w⋅∇≡∇ , nnnn MM ~~~ˆ 1−∇−≡ ww adalah

sedemikian hingga ∗→ ww ..ˆ san dan

),()ˆ(2/1 ∗∗ Ν→− C0ww dnn ,

dengan '11 ∗−∗∗−∗ ≡ ABAC , ∗∗ ∇≡ MA .


64

Jika ada ~ nB sedemikian hingga ∗→ BB ..~ san , maka dengan

nn M~~∇≡A diperoleh bahwa

'11 ~~~~ −−≡ nnnn ABAC ∗→ C..sa .

Kegunaan dari Teorema 3.3.4 adalah bahwa nw dapat menghasilkan

suatu perbaikan atas nw~ , yaitu dalam hal mempunyai matrik kovarians asimtotis

yang lebih kecil.

Teorema 3.3.4. (White, 1989a). Misalkan kondisi-kondisi dari Teorema 3.3.3

terpenuhi dengan ∗w suatu nol yang terisolasi pada 0)),(()( =≡ ww nZMEM ,

dan misalkan W adalah suatu persekitaran kompak yang konvek dari ∗w .

Tetapkan ∑ =−≡⋅ n

t tn ZmnM 11 ),(),( ww sedemikian hingga ≡⋅∇ ),( wnM

∑ =− ∇n

t tZmn 11 ),( w , dan anggap bahwa m∇ terdominasi pada W oleh suatu

fungsi yang dapat diintegralkan. Misalkan nw~ adalah suatu estimator- m yang

rekursif dan definisikan nnnn MM ~~~ˆ 1−∇−≡ ww , K,2,1=n . Maka kesimpulan-

kesimpulan dari Teorema 3.3.3 terpenuhi dan ∗∗ − CF adalah semidefinit positif.

3.4 Uji Hipotesa untuk Parameter Model Neural Networks

Pada bagian sebelumnya telah ditunjukkan bahwa penggunaan satu

tahap Nonlinear Least Squares (NLS) Newton-Raphson dari estimator back-

propagation menghasilkan suatu estimator yang ekuivalen secara asimtotis

dengan NLS. Suatu kenyataan bahwa ∗∗ − CF semidefinit positif adalah suatu

alasan untuk menyatakan bahwa tahapan ini adalah pembelajaran konsolidasi,

karena nw mempunyai presisi asimtotis yang sama atau lebih besar daripada

nw~ . Dengan demikian uji hipotesa berdasarkan nw adalah lebih bermanfaat dari

pada berdasarkan nw~ .

Karena pencapaian presisi yang lebih baik ini, maka uji hipotesis sebaik-

nya dilakukan dengan menggunakan nw . Suatu uji tentang relevansi

(signifikansi) input yang hipotesisnya dapat dinyatakan dengan 0Sw =∗:0H

melawan 0Sw ≠∗:1H , dapat dilakukan berdasarkan pada versi-versi statistik

Wald, Lagrange multiplier, dan Likelihood ratio.


65

Berikut ini adalah Corollary, Proposisi dan Teorema yang diperlukan

untuk menurunkan dan membuktikan Teorema untuk statistik Wald pada

parameter model NN.

Corollary 3.4.1. (White, 1999) Misalkan nX adalah suatu barisan vektor

random 1×k sedemikian hingga ),0(2/1 IXV Ν→− dnn , dengan nV dan 1−

nV

adalah )1(O . Misalkan nY adalah suatu barisan )1(O dari matriks (non

stokastik) kq× dengan rank baris penuh q untuk semua n cukup besar,

seragam dalam n . Maka barisan nX nY adalah sedemikian hingga

),(2/1 I0NYXΓ →− dnnn ,

dengan nnnn XVXΓ ≡ dan nΓ dan 1−nΓ adalah )1(O .

Proposisi 3.4.1. (White, 1999) Misalkan lkg ℜ→ℜ: adalah kontinyu pada

suatu himpunan kompak kℜ⊂C . Anggap bahwa nY adalah suatu barisan

vektor random 1×k dan nZ adalah suatu barisan vektor 1×k sedemikian

hingga 0→− pnn ZY , dan untuk semua n cukup besar, nZ adalah bagian

dalam C , secara seragam dalam n . Maka 0)()( →− pnn gg ZY .

Teorema 3.4.1. (White, 1999) Misalkan ),0(2/1k

dnn N IYV →− , dan anggap

bahwa ada nV yang semidefinit positif dan simetrik sedemikian hingga

0ˆ →− pnn VV , dengan nV adalah )1(O , dan untuk semua n cukup besar,

0)det( >> δnV . Maka 2ˆk

dnnn χ→′′ YVY .

Pada akhirnya, dapat dikonstruksi teorema baru yang berkaitan dengan

statistik Wald yang digunakan untuk pengujian hipotesis pada parameter model

NN dapat dikonstruksi seperti berikut ini.

Teorema 3.4.2. Misalkan kondisi-kondisi pada Teorema 3.3.3 di atas terpenuhi,

yaitu


66

(i) ),()ˆ(2/1

I0wwC Ν→− ∗−∗ dnn , dengan

'11 ABAC −∗∗−∗∗ ≡ , dan 1−∗C

adalah )1(O .

(ii) Ada suatu matriks semidifinit positif dan simetris nB sedemikian hingga

∗− BBnˆ 0→p . Maka ∗− CCn

ˆ 0→p , dengan 11 ˆˆˆˆ −−= nnnn ABAC ,

n,Zln

t ntn

∑ = ∇= 1

2 )ˆ(ˆ wA ,

nZlZln

t ntntn

∑ = ′∇∇= 1 )ˆ,()ˆ,(ˆ ww

B ,

Dan, misalkan kq ≤=)(rank S . Maka dibawah sH =∗Sw:0 ,

(i) ),()ˆ(2/1 I0swSΓ Ν→−− dnn n , dengan

=≡ ∗ 'n SSCΓ ''SABSA 11 −∗∗−∗ .

(ii) Suatu statistik Wald, 21 )ˆ(ˆ)ˆ( q

dnnnn nW χ→−′−≡ − swSΓswS ,

dengan 'nn SCSΓ ˆˆ ≡ .

Bukti: Dengan menggunakan Corollary, Proposisi dan Teorema di atas,

diperoleh pembuktian untuk Teorema 3.4.2 sebagai berikut.

(i) Di bawah ,0H )ˆˆ ∗−=− wwS(swS nn , didapatkan

)ˆ()ˆ(2/12/12/12/1 ∗∗∗−− −=−

−wwCSCΓswSΓ nnnn nn .

Mengikuti Corollary 3.4.1, dengan SA =n dan )ˆ( ∗−= wwb nn n ,

sehingga diperoleh ),()ˆ(2/1 I0swSΓ Ν→−− dnn n .

(ii) Dari Teorema 3.3.3 diketahui bahwa 0ˆ .→− ∗ san CC , akibatnya

0ˆ →− ∗ pn CC . Mengikuti Proposisi 3.4.1, dengan )ˆ(ˆ

nn g CΓ = dan

)( ∗= CΓ gn , sehingga didapatkan 0ˆ →− pnn ΓΓ . Diberikan hasil

dalam bagian (i), yaitu ),()ˆ(2/1 I0swSΓ Ν→−− dnn n , maka dengan

menggunakan Teorema 3.4.1 diperoleh

21 )ˆ(ˆ)ˆ( qd

nnnn nW χ→−′−≡ − swSΓswS .

Dengan demikian, suatu uji tentang relevansi (signifikansi) input yang

hipotesisnya dapat dinyatakan dengan 0Sw =∗:0H melawan 0Sw ≠∗:1H ,


67

dapat dilakukan dengan mengaplikasikan Teorema 3.4.2 ini. Sebagai contoh,

statistik uji Wald dapat dihitung untuk pengujian hipotesis ini yaitu

nnn nW wSSSCSw ˆ)(ˆˆ 1−∗ ′′′= ,

dengan ∗C seperti yang dijelaskan sebelumnya. Realisasi dari variabel random

ini tidak dapat dihitung, karena meskipun pernyataan secara analitis untuk ∗C

ada, suatu keadaan tentang hukum probabilitas P dibutuhkan untuk evaluasi

secara numerik. Untungnya, suatu taksiran ∗C dapat dikonstruksi, yaitu 1212 ˆˆˆˆ −− ∇∇≡ nnnn QQ JC dengan )ˆ,(ˆ 22

nnn QQ w⋅∇≡∇ , dan ∑ =− ∇′′∇≡ n

t ttttn ffn 11 ˆˆˆˆˆ εεJ

dengan )ˆ(ˆntt ff w∇≡∇ , )ˆ(ˆ nttt fY w−≡ε . Uji statistik Wald nW adalah lebih

mudah dihitung daripada nW~ karena nC lebih mudah dihitung. Ketika kondisi-

kondisi aturan standar terpenuhi, maka

21 ˆ)ˆ(ˆ qd

nnnn χ→′′ − wSSCSSw ,

di hipotesis 0H yang menyatakan bahwa input tidak relevan.

- 68 -

BAB IV FFNN UNTUK PERAMALAN RUNTUN WAKTU

Peramalan runtun waktu merupakan salah satu bidang utama dalam

aplikasi FFNN. Dalam kasus ini, FFNN dapat dipandang sebagai suatu model

runtun waktu yang nonlinear. Jika diberikan tΙ adalah suatu himpunan informasi

yang didefinisikan

tΙ 0,;0, ≥>= −− iXjY itjt , nt ,,2,1 K= , (4.1)

yang menyatakan semua variabel lag tY dan suatu vektor variabel eksogen tX ,

maka proses pemodelan runtun waktu secara umum bertujuan mendapatkan

suatu pendekatan yang baik untuk )( tIf sedemikan hingga

)(]|[ ttt IfΙYE = . (4.2)

Terasvirta dkk. (1994) menjelaskan bahwa ada tiga tahapan strategi

pemodelan yang banyak dilakukan pada kelompok model runtun waktu

nonlinear. Secara ringkas tahapan tersebut adalah :

(i). Uji linearitas tY dengan menggunakan informasi tΙ

Banyak kemungkinan bentuk dari nonlinearitas, dan sampai saat ini tidak

ada satu tes yang mampu melakukan semua kemungkinan nonlinear

tersebut, sehingga beberapa tes mungkin diperlukan.

(ii). Jika linearitas ditolak, gunakan beberapa alternatif model parametrik

nonlinear dan/atau model-model nonparametrik.

Dalam hal ini, hasil uji linearitas juga mungkin memberikan petunjuk

tentang model nonlinear yang sebaiknya digunakan.

(iii). Model-model tersebut selanjutnya diestimasi dalam sampel (in-sample)

dan dibandingkan pada data validasi (out-of-sample).

Sifat-sifat dari model taksiran harus diselidiki dan divalidasi. Jika suatu

model tunggal terbaik yang dibutuhkan, maka model yang memberikan

Bab IV. FFNN untuk Peramalan Runtun waktu

69

hasil out-of-sample terbaik yang dipilih, dan kemudian lakukan estimasi

kembali pada semua data yang ada.

Pada bab ini akan diberikan hasil-hasil kajian teori dan terapan tentang uji

nonlinearitas pada runtun waktu, dan kajian teori tentang prosedur pembentukan

FFNN untuk peramalan runtun waktu.

4.1 Uji Nonlinearitas pada Data Runtun waktu

Seperti yang dijelaskan pada tahapan pemodelan runtun waktu nonlinear

oleh Terasvirta dkk. (1994), bahwa tahap pertama sebelum menerapkan suatu

model runtun waktu nonlinear (seperti FFNN) adalah melakukan uji linearitas

pada runtun waktu. Ada beberapa uji nonlinearitas yang telah dikembangkan,

antara lain uji RESET, bispectral, BDS, dan uji tipe tipe Langrange Multiplier

(LM). Kajian perbandingan kebaikan uji-uji ini dapat dilihat pada Lee dkk. (1993).

Pada bagian ini akan dipaparkan hasil-hasil kajian teori dan terapan

berkaitan dengan uji linearitas yang dikembangkan dari model neural network,

yang dikenal dengan uji linearitas tipe LM dengan ekspansi Taylor. Kajian teori

difokuskan pada penurunan uji statistik. Sedangkan kajian terapan lebih

menitikberatkan pada berfungsinya uji statistik, dan mengevaluasi adanya

kemungkinan kelemahan dari uji statistik tersebut. Secara lengkap hasil dari

kajian ini telah dipublikasikan dan dapat dilihat di Suhartono dan Subanar (2004)

serta Subanar dan Suhartono (2005, 2006a).

4.1.1 Penurunan Uji Nonlinearitas Tipe Lagrange Multiplier (LM) dengan

Ekspansi Taylor

Perhatikan model nonlinear

tttt uIIY +′+′= βγ )(ϕ (4.1.1)

dengan ~tu IIDN ),0( 2σ , )~,1( ′′= tt II , ),,(~1 ′= −− pttt YYI K , ),,,( 10 ′= pβββ Kβ ,

)~,( 0 ′′= γγ γ dan ),,(~1 ′= pγγ Kγ . Dalam model (4.1.1) ini, tI dibatasi hanya

variabel lag tY dan tidak melibatkan variabel eksogen tX . Misal diberikan


70

)()( 0 tt II γγ ′=′ ψθϕ , (4.1.2)

dengan (lihat Terasvirta dkk. (1993))

211)exp(1)( −′−+=′ −

tt II γγψ . (4.1.3)

Dengan demikian persamaan (4.1.1) dapat diinterpretasikan sebagai suatu

model autoregresif nonlinear dengan konstanta )(00 tIγψθβ ′+ , yang variatif

terhadap waktu dan berubah secara halus dari )2( 00 θβ − ke )2( 00 θβ +

dengan tIγ′ .

Model (4.1.1) adalah kasus khusus dari model neural networks dengan

satu lapis tersembunyi, yaitu (lihat Terasvirta dkk. (1993))

∑=

+−′+′=q

jttjjtt uIIY

121

0 )( γψθβ , (4.1.4)

dengan q adalah banyaknya unit neuron pada lapis tersembunyi. Secara visual,

arsitektur model neural networks ini dapat dilustrasikan seperti pada Gambar 4.1.

Perhatikan persamaan (4.1.1) dengan (4.1.2) dan uji hipotesis bahwa tY

adalah linear, yaitu ttt uIY +′= β dengan asumsi bahwa proses stasioner. Jadi

hipotesis nol dapat didefinisikan sebagai 0: 00 =θH . Untuk model (4.1.4)

hipotesis nolnya adalah

0: 002010 ==== qH θθθ L ,

yang disebut hipotesis linearitas dari uji neural networks melawan nonlinearitas

yang terabaikan (lihat White (1989c) dan Lee dkk. (1993)). Selanjutnya, jika

diberikan bahwa 0)0( =ψ maka hal ini berimplikasi pada kemungkinan lain untuk

hipotesis nol untuk linearitas, yaitu

0γ =:*0H (4.1.5)

melawan hipotesis alternatif 0γ ≠ .


71

),,,( 10 ′=′ pββββ K

),,,( 10 ′= pj γγγγ K ),,( 0010 ′= qj θθθ K

M Lapis Output (Variabel Dependen) M Lapis Input (Lag Variabel Dependen) Lapis Tersembunyi (q unit neuron)

Gambar 4.1. Arsitektur model neural networks satu lapis tersembunyi pada persamaan (4.1.4).

Hipotesis (4.1.5) memberikan suatu titik awal yang menarik untuk

mempelajari permasalahan uji linearitas dalam kerangka pengujian LM.

Perhatikan kembali bahwa model (4.1.1) hanya diidentifikasi di bawah alternatif

0γ ≠ . Seperti Saikkonen dan Luukkonen (1988) dan Luukkonen dkk. (1988),

tulisan ini mencoba menyelesaikan masalah ini dengan mengganti ϕ dalam

(4.1.1) dengan pendekatan ekspansi Taylor pada 0=γ . Pendekatan ekspansi

Taylor yang paling mudah adalah suatu pendekatan order pertama. Dari (4.1.2)

dan (4.1.3) dapat ditunjukkan bahwa turunan pertama dari (4.1.2) adalah

2)exp(1)exp(.

)(t

ttt I

IwI

γγ

γγ ′−+

′−=′

∂∂

ψ ,

sehingga diperoleh

tt

t II

I 41

20 )0exp(1)0exp(.

)( =+

=′∂∂

=γψ γγ

. (4.1.6)

ty

1

1−ty

pty −


72

Dengan demikian pendekatan ekspansi Taylor orde pertama, yang

dinotasikan dengan 1t , yaitu =′ )( 10 tIt γθ tt II γγ ′=′′ 041

0 )0( θψθ bergabung

dengan bagian linear dari model (4.1.1), sehingga semua informasi tentang

nonlinearitas tereliminir. Hal ini merupakan cara lain untuk melihat bahwa (4.1.1)

dengan (4.1.2) dan model linear autoregresi order p adalah alternatif yang

secara lokal sama dengan dasar (4.1.5).

Untuk mengatasi permasalahan tereliminasinya informasi tentang non-

linearitas diatas, dilakukan hal seperti dalam Luukkonen dkk. (1988) dan gantikan

ψ dalam (4.1.1) melalui pendekatan ekspansi Taylor dengan orde yang lebih

tinggi, orde ketiga, yang dinotasikan dengan 3t untuk menurunkan suatu uji yang

tepat. Diberikan

∑ ∑∑= == ∂∂

∂+

∂∂

+=′p

i

p

jji

ji

p

ii

itj It

0 0

2

13

)0(21)0()0()( γγ

γγψ

γγ

ψψγ

∑ ∑ ∑= = = ∂∂∂

∂+

p

i

p

j

p

kkji

kji0 0 0

3 )0(61

γγγγγγ

ψ (4.1.7)

dan gantikan ψ dalam (4.1.1) oleh (4.1.6).

Berikut ini adalah langkah-langkah untuk mendapatkan pendekatan

ekspansi Taylor orde ketiga. Pertama, persamaan (4.1.2) dapat ditulis kembali

dalam bentuk

211)exp(1)( −′−+=′ −

tt II γγψ

211

110 ])[exp(1 −+++−+= −−− ptpt YY γγγ L .

Turunan pertama dari persamaan ini adalah

itptpt

ptpt

iY

yy

yy−

−−

−−

+++−+

+++−=

∂∂ .

])[exp(1

])[exp(2

110

110

γγγ

γγγ

γψ

L

L

itt

t YI

I−′−+

′−= .

)exp(1)exp(

2γγ

.


73

Selanjutnya, turunan kedua dari (4.1.2) adalah

+++−+

+++−

∂∂

=∂∂

∂−

−−

−−it

ptpt

ptpt

jjiY

YY

YY.

])[exp(1

])[exp(2

110

1102

γγγ

γγγ

γγγψ

L

L

jtitt

ttt YYI

III−−′−+

′−+′−+′−−= .

)exp(1)2exp(2)exp(1)]exp([

3γγγγ

.

jtitt

tt YYI

II−−′−+

′−−′−−= .

)exp(1)2exp()exp(

3γγγ

untuk 1, ≥ji .

Dengan demikian, turunan ketiga dari (4.1.2) ini adalah

′−+

′−−′−−

∂∂

=∂∂∂

∂−− jtit

t

tt

kkjiYY

III

.)exp(1

)2exp()exp(3

3

γγγ

γγγγψ

ktjtitt

ttt YYYI

III−−−′−+

′−+′−−′−= .

)exp(1)3exp()2exp(4)exp(

4γγγγ

,

untuk 1,, ≥kji .

Dari hasil-hasil penjabaran di atas, pendekatan ekspansi Taylor pada

0γ = akan menghasilkan

=∂∂

∂

ji γγψ )0(2

0)0exp(1

)0exp()0exp(3 =

−+−

− −− jtit YY ,

dan

ktjtitkji

YYY −−−+

+−=

∂∂∂∂

4

3

)0exp(1)0exp()0exp(4)0exp()0(

γγγψ

.1,,,81 ≥−= −−− kjiYYY ktjtit untuk

Jika 1, ≥ji dan 0=k diperoleh

jtitkji

YY −−−=∂∂∂

∂81

3 )0(γγγ

ψ.


74

Dengan demikian, model (4.1.1) menjadi

t

p

i

p

ij

p

jkktjtitijk

p

i

p

ijjtitijtt uYYYYYIY +++′= ∑ ∑ ∑∑ ∑

= = =−−−

= =−−

11

~δδβ , (4.1.8)

dengan β~ adalah gabungan antara β dengan koefisien-koefisien bagian linear

hasil pendekatan Taylor orde pertama, jiijij d γγθδ 0= , dan kjiijkijk d γγγθδ 0=

dengan 481−== ijkij dd .

Jika 00 =γ adalah suatu informasi dari model, sehingga tt II ~ ~γγ ′=′

(bagian eksponensial tidak mengandung suatu konstanta), maka 0=ijδ untuk

semua ji, . Dalam kasus ini, persamaan (4.1.8) tidak mempunyai suku orde

kedua. Hipotesis nol yang bersesuaian dengan (4.1.5) adalah

:*0H ,0=ijδ 0=ijkδ untuk ;,,1 pi K= ;,, pij K= pjk ,,K= .

Dengan demikian, uji linearitas tipe LM melawan (4.1.1) terdiri dari deret orde

ketiga dari ekspansi Volterra (lihat Priestley, 1980) suatu fungsi nonlinear. Dalam

hal ini, uji hipotesis nolnya menyatakan bahwa koefisien-koefisien dari suku-suku

kuadratik dan kubik adalah sama dengan nol. Jika ada argumen yang

menyatakan bahwa fungsi tidak mengandung suatu konstanta, maka dalam hal

ini tidak ada suku kuadratik dalam ekspansi Taylor pada 0γ = .

Selanjutnya, perhatikan bahwa (4.1.4) merupakan bentuk dasar dari uji

neural networks. Jika 1>q , (4.1.4) tidak secara global dapat diidentifikasi di

bawah hipotesis nol

0: 1*0 === qH γγ L (4.1.9)

ataupun di bawah hipotesis alternatif bahwa hipotesis nol adalah tidak benar.

Suatu konsekuensi dari ini adalah kenyataan bahwa penurunan suatu uji yang

dapat diterapkan untuk hipotesis nol pada (4.1.9) mengikuti argumen di atas

menghasilkan (4.1.8) dengan

∑ == qh hhjhiijij d1 00 γγγθδ dan ∑ == q

h hkhjhiijkijk d1 0 γγγθδ .


75

Dengan demikian, uji linearitas berdasarkan dual (suku kuadratik dan kubik) dari

ekspansi Volterra tetap tidak berubah ketika proses pembangkitan data adalah

seperti (4.1.4) pengganti dari (4.1.1).

Uji ini tidak selalu tergantung pada asumsi bahwa fungsi “squashing”

dalam model neural networks adalah logistik. Seperti yang telah dikerjakan

Luukkonen dkk. (1988), uji yang sama akan dapat diperoleh dengan asumsi

bahwa

(i). )( tIγ′ψ dalam (4.1.2) adalah suatu fungsi terbatas, ganjil, naik secara

monoton dengan suatu turunan ketiga berhingga pada suatu persekitaran

dari daerah asal, dan

(ii). 0)0( =ψ , dan turunan parsial pertama dan ketiga dari ψ pada nol adalah

tidak sama dengan nol.

Hal ini berimplikasi bahwa uji tersebut mempunyai kuasa (power) dibanding

beberapa model nonlinear, tidak hanya satu bentuk nonlinearitas yang dicirikan

dengan fungsi logistik. Fungsi logistik yang digunakan dalam menurunkan uji

disini disebabkan karena fungsi tersebut yang dipakai pada (4.1.4).

Implementasi praktis uji linearitas yang dikenalkan oleh Terasvirta dkk.

(1993), dapat dilakukan melalui dua statistik uji, yaitu uji 2χ atau uji F . Prosedur

untuk mendapatkan uji 2χ adalah sebagai berikut :

(i). Regresikan tY pada ptt YY −− ,,,1 1 K dan hitung nilai-nilai residual

ttt YYu ˆˆ −= .

(ii). Regresikan tu pada ptt YY −− ,,,1 1 K dan m prediktor tambahan, dan

kemudian hitung koefisien determinasi dari regresi 2R . Pada uji yang

dikenalkan oleh Terasvirta dkk. (1993), m prediktor tambahan ini adalah

suku kuadratik dan kubik yang merupakan hasil pendekatan ekspansi

Taylor seperti yang telah dijelaskan pada bagian 3 persamaan (4.1.8)

sebelumnya.

(iii). Hitung 22 nR=χ , dengan n adalah banyaknya pengamatan yang

digunakan.


76

Dibawah hipotesis linearitas, 2χ mendekati distribusi )(2 mχ , dengan m adalah

banyaknya prediktor tambahan. Kajian teoritik berkaitan dengan pendekatan

asimtotis 22 χ→dnR dapat dilihat White (1989c).

Sedangkan prosedur uji F untuk uji linearitas tipe LM ini adalah sebagai

berikut :

(i). Regresikan tY pada ptt YY −− ,,,1 1 K dan hitung nilai-nilai residual tu dan

hitung jumlah kuadrat residual ∑= 20 ˆtuSSE .

(ii). Regresikan tu pada ptt YY −− ,,,1 1 K dan m prediktor tambahan, dan

kemudian hitung residual ttt uuv ˆˆˆ −= dan jumlah kuadrat residual

∑= 21 ˆtvSSE . ( m dan prediktor-prediktor yang terlibat bervariasi untuk

suatu uji dengan uji yang lain, seperti yang ditunjukkan pada bagian

sebelumnya).

(iii). Hitung

)1/(

/)(

1

10

mpnSSEmSSESSE

F−−−

−= , (4.1.10)

dengan n adalah banyaknya pengamatan yang digunakan.

Dibawah hipotesis linearitas, F mendekati distribusi F dengan derajat bebas

m dan )1( mpn −−− . Penggunaan dari uji F menggantikan uji 2χ ini

didasarkan oleh rekomendasi dari teori asimtotis dalam sampel kecil, yaitu

karena uji ini mempunyai sifat-sifat kuasa dan ukuran yang baik (Harvey, 1990).

4.1.2 Desain Kajian Terapan Uji Nonlinearitas Tipe Lagrange Multiplier

(LM) dengan Ekspansi Taylor

Kajian terapan terhadap uji nonlinearitas tipe LM ini dilakukan melalui

studi simulasi yang difokuskan pada perbandingan kuasa (power) antara uji

Terasvirta yang dibahas pada bagian sebelumnya dengan uji White. Uji White

adalah uji nonlinearitas tipe LM dengan sampling acak yang diperkenalkan oleh

White (1989c) dan Lee dkk. (1993). Isu lain yang akan dikaji dalam studi simulasi

ini adalah efek dari outlier pada model linear terhadap kuasa dari kedua uji

tersebut.


77

Eksperimen Monte Carlo secara umum berupa dua kelompok pem-

bangkitan data univariat, yaitu linear dan nonlinear. Model-model linear yang

dipilih dalam eksperimen ini adalah model Autoregresif orde 2 atau AR(2) dan

model Gerak Acak. Model AR(2) mewakili kelompok model linear ARIMA dan

dalam hal ini dipilih koefisien 1,2 dan -0,6 yang memenuhi syarat stasioneritas.

Sedangkan model Gerak Acak mewakili kelompok model linear yang tidak

memenuhi syarat stasioner.

Ada dua model nonlinear yang digunakan dalam studi simulasi ini yaitu

model Logistic Smooth Transition Autoregressive (LSTAR) dan Exponential

Smooth Transition Autoregressive (ESTAR). Model LSTAR yang digunakan

secara umum mempunyai bentuk yang sama dengan yang telah digunakan oleh

Terasvirta dkk. (1993). Sedangkan model ESTAR yang dipilih adalah model yang

mempunyai bentuk yang sama dengan yang digunakan oleh Connor dkk. (1994).

Perbedaan kedua model ini adalah terletak pada besarnya nilai-nilai parameter

yang digunakan.

Secara umum, penentuan besarnya parameter pada studi simulasi

mengikuti Lee dkk. (1993). Secara lengkap model linear dan nonlinear yang

digunakan dalam studi simulasi ini adalah :

a. Kelompok model linear

(i). Model AR(2) : tttt uYYY +−= −− 21 6.02.1 , dengan )5.0,0(IIDN~ 2tu .

(ii). Gerak Acak : ttt uYY += −1 , dengan )5.0,0(IIDN~ 2tu .

(iii). Model Autoregresif dengan outlier atau AR(2)-O

tTttt uIYYY ++−= −− 56.02.1 21

dengan 1=TI untuk 101=T dan nol untuk 101≠T , )5.0,0(IIDN~ 2tu .

b. Kelompok model nonlinear

(i). Model LSTAR :

ttttttt uYFYYYYY ++−+−= −−−−− )()795.09.0(6.02.1 121021 θ


78

dengan 111 )]02.0(exp1[)( −

−− −−+= tt YYF γ , 02.00 =θ , 100=γ , dan

)05.0,0(IIDN~ 2tu .

(ii). Model Exponential Smooth Transition Autoregressive (ESTAR-1), yaitu

ttttttt uYFYYYYY ++−+−= −−−−− )()795.09.0(6.02.1 121021 θ

dengan .2000exp1)( 211 −− −−= tt YYF , dan )05.0,0(IIDN~ 2

tu .

(iii). Model Exponential Smooth Transition Autoregressive (ESTAR-2), yaitu

tttt uYYY +−= −− )25.0exp(.5.6 211 , dengan )5.0,0(IIDN~ 2

tu .

Untuk masing-masing model, besar ukuran sampel yang digunakan adalah 200.

Studi simulasi ini dilakukan dengan menggunakan program R, dan secara

lengkap script program untuk kajian terapan ini dapat dilihat pada Subanar dkk.

(2005).

Ilustrasi grafik yang berupa plot runtun waktu data dan plot data dengan

lag-lagnya dari hasil simulasi untuk kelompok model linear dapat dilihat pada

Gambar 4.2 dan 4.3. Gambar 4.2 adalah untuk model AR(2), sedangkan Gambar

4.3 untuk model Gerak Acak. Dari Gambar 4.2a dapat dilihat bahwa data relatif

stasioner dan hal ini sesuai dengan yang dipostulatkan. Berdasarkan plot lag-

lagnya, yaitu Gambar 4.2b sampai dengan 2e, dapat dijelaskan bahwa lag-lag

yang relatif kuat berhubungan linear dengan kejadian pada waktu ke-t, tY ,

adalah lag 1 dan 2, atau 1−tY dan 2−tY .

Hasil pada Gambar 4.3a menunjukkan bahwa pola data tidak stasioner

dan dari Gambar 4.3b sampai dengan 4.3e terlihat jelas bahwa ada hubungan

linear yang sangat kuat antara lag 1, 2, 3 dan 4, atau ,1−tY ,2−tY 3−tY dan 4−tY ,

dengan kejadian pada waktu ke-t atau tY . Adanya hubungan yang sangat kuat

terutama antara 1−tY dengan tY menunjukkan bahwa hasil simulasi telah sesuai

dengan postulat model yang sebenarnya, dimana hanya lag 1 yang ada dalam

model.


79

Gambar 4.2. Plot runtun waktu data (2a), dan plot data dengan lag-lagnya, yaitu 2b dengan lag 1, 2c dengan lag 2, 2d dengan lag 3, dan 2e dengan lag 4, dari data simulasi AR(2).

Gambar 4.3. Plot runtun waktu data (3a), dan plot data dengan lag-lagnya, yaitu 3b dengan lag 1, 3c dengan lag 2, 3d dengan lag 3, dan 3e dengan lag 4, dari data simulasi Gerak Acak.


80

Gambar 4.4 dan 4.5 adalah hasil ilustrasi grafik berupa plot runtun waktu

dan plot data dengan lag-lagnya dari simulasi untuk kelompok model nonlinear,

yaitu model LSTAR di Gambar 4.4 dan model ESTAR-2 pada Gambar 4.5. Dari

Gambar 4.4a dapat dilihat bahwa pola data fluktuatif di sekitar angka nol. Secara

visual pola data terlihat stasioner dan sulit membedakan dengan model linear

pada Gambar 4.2a sebelumnya. Begitu juga dengan visualisasi data dengan lag-

lagnya yang mengindikasikan bahwa bentuk hubungan linear dengan lag-lag

data masih relatif ada. Hal ini terutama dapat dilihat pada plot dengan lag 1 di

Gambar 4.4b. Kondisi ini sesuai dengan yang dipostulatkan dalam model bahwa

model LSTAR juga mengandung unsur model linear didalamnya. Gambar 4.4d

dan 4.4e juga menunjukkan bahwa lag 3 dan lag 4 relatif tidak berhubungan

dengan tY . Indikasi ini digambarkan dengan bentuk titik-titik pada plot lag-lag

tersebut yang relatif menyerupai suatu lingkaran.

Gambar 4.4. Plot runtun waktu data (4a), dan plot data dengan lag-lagnya, yaitu 4b dengan lag 1, 4c dengan lag 2, 4d dengan lag 3, dan 4e dengan lag 4, dari data simulasi LSTAR.


81

Gambar 4.5. Plot runtun waktu data (5a), dan plot data dengan lag-lagnya, yaitu 5b dengan lag 1, 5c dengan lag 2, 5d dengan lag 3, dan 5e dengan lag 4, dari data simulasi ESTAR-2.

Berbeda dengan model LSTAR sebelumnya, Gambar 4.5a mengin-

dikasikan bahwa data cenderung tidak stasioner dan berfluktuasi dengan pola

yang teratur disekitar angka nol. Hasil pada Gambar 4.5b sampai dengan 4.5e

menunjukkan dengan jelas bahwa bentuk hubungan dengan lag-lag data adalah

nonlinear. Hal ini terutama dapat dilihat pada plot data dengan lag 1 di Gambar

4.5b. Kondisi ini sesuai dengan postulat model sebenarnya yaitu lebih didominasi

unsur nonlinearnya.

4.1.3 Hasil Kajian Terapan Uji Nonlinearitas Tipe Lagrange Multiplier (LM)

dengan Ekspansi Taylor

Studi simulasi ini dilakukan pada masing-masing model di atas dengan

pengulangan sebanyak 1000 kali dan ukuran sampel sebesar 200. Banyak

pengulangan ini sama seperti yang telah dilakukan oleh Terasvirta dkk. (1993),

sedangkan besarnya ukuran sampel tersebut mewakili besar data yang besar


82

untuk suatu runtun waktu. Secara ringkas hasil-hasil perhitungan dari power

pada uji Terasvirta dan uji White pada keempat model simulasi di atas dapat

dilihat pada Tabel 4.1 dan secara grafik ditampilkan pada Gambar 4.6.

Nilai power ini adalah persentase terjadi kesimpulan tolak 0H dalam

1000 kali pengujian pada masing-masing model, di bawah kondisi 0H adalah

tidak benar. Dari Tabel 4.1 dan Gambar 4.6a dan 4.6b dapat dilihat dengan jelas

bahwa power pada kedua uji ini untuk model yang sesungguhnya linear dan

stasioner adalah sangat kecil. Dari hasil pada model AR(2) dapat dilihat dengan

jelas bahwa nilai power pada kedua uji tersebut mendekati nilai level signifikansi,

yaitu antara 0,01 dan 0,05.

Power ini akan semakin besar pada saat model yang ada adalah model

yang tidak stasioner, yang dalam penelitian ini diwakili oleh model Gerak Acak

pada Gambar 4.6b. Perbandingan uji nonlinearitas dan uji ketidakstasioneran

data (unit root test) pada suatu data runtun waktu secara mendalam dapat dilihat

pada Blake dan Kapetanios (2003).

Tabel 4.1. Hasil perbandingan power uji Terasvirta dan uji White pada keenam model simulasi (1000 kali pengulangan)

Hasil terpenting yang diperoleh dari studi simulasi pada model-model

linear ini adalah adanya fakta yang signifikan yang menunjukkan bahwa kedua uji

NN untuk linearitas ini sangat sensitif terhadap adanya outlier pada suatu data.

Hal ini ditunjukkan oleh hasil pada model AR(2)-O yang memberikan nilai power

sekitar 96% untuk uji White dan 99,9% untuk uji Terasvirta pada level signifikansi

0.05.


83

Berdasarkan hasil-hasil pada Tabel 4.1, dapat dilihat bahwa hasil

perbandingan power kedua uji pada model-model yang nonlinear menunjukkan

bahwa uji Terasvirta cenderung mempunyai power yang lebih tinggi dibanding uji

White. Hal ini terlihat jelas pada nilai power untuk model nonlinear LSTAR dan

ESTAR-1, baik pada level signifikansi 0,05 ataupun 0,01. Hasil dari penelitian ini

juga menunjukkan bahwa untuk data runtun waktu yang indikasi nonlinearnya

sangat kuat, dalam hal ini seperti pada model ESTAR-2, maka kedua uji ini

memberikan hasil yang sama baiknya.

4.2 Prosedur Pembentukan FFNN untuk Peramalan Runtun waktu

Bagian ini akan menjelaskan hasil-hasil kajian berkaitan dengan statistik

uji baru yang selanjutnya dapat digunakan dalam prosedur pembentukan model

FFNN untuk suatu permasalahan runtun waktu, baik prosedur “top-down”

ataupun “bottom-up”. Statistik uji yang dikembangkan adalah statistik uji untuk

evaluasi secara inferensia besaran penambahan R2 pada suatu network yang

dikenal dengan R2incremental. Penggunaan besaran ini secara deskriptif pertama

kali diperkenalkan oleh Kaashoek dan Van Dijk (2002). Kaashoek dan Van Dijk

(2002) mengombinasikan pemakaian R2incremental dengan koefisien loading pada

Principal Component Analysis untuk residual untuk evaluasi secara deskriptif

kontribusi suatu unit input dan unit neuron di lapis tersembunyi. Hasill-hasil dari

kajian ini juga telah dipublikasikan dalam Suhartono dkk. (2006a, 2006b), serta

pada Suhartono dan Subanar (2006).

4.2.1. Kontribusi Penambahan melalui R2

Kaashoek dan Van Dijk (2002) menyatakan bahwa suatu kandidat yang

natural untuk mengkuantifikasi performansi suatu network adalah kuadrat dari

koefisien korelasi antara Y dan Y ,

)ˆˆ)(()ˆ( 2

2

YYYYYYR

′′′

= (4.2.1)


84

dengan Y adalah vektor dari titik-titik output network. Performansi network

dengan penghapusan hanya satu unit neuron di lapis tersembunyi dapat diukur

dengan cara yang sama. Sebagai contoh, jika kontribusi dari unit neuron h

adalah nol )0( =hβ , maka network akan menghasilkan suatu output hY−

dengan kesalahan atau error,

hh YYe −− −= ˆ . (4.2.2)

Performansi network yang telah tereduksi ini dapat diukur dengan kuadrat

dari koefisien korelasi 2hR− antara Y dan Y , yaitu

)ˆˆ)(()ˆ( 2

2

hh

hh YYYY

YYR

−−

−− ′′

′= . (4.2.3)

Selanjutnya, kontribusi penambahan dari unit neuron h yang dinotasikan dengan 2

)(hR adalah

222)( hh RRR −−= . (4.2.4)

Prosedur yang sama dapat diaplikasikan untuk mereduksi jumlah unit

pada lapis input. Dalam hal ini, )(ˆ tY i− adalah output network dari suatu

arsitektur network dengan taksiran parameter-parameter tanpa melibatkan unit

input i . Jika kontribusi dari unit input i dikondisikan sama dengan nol ,0( =ihγ

dengan ;,,2,1 pi K= ),,2,1 qh K= , maka performansi network yang tereduksi ini

dapat dikuantifikasi dengan kuadrat dari koefisien korelasi antara Y dan iY− ,

yang dinotasikan 2iR− , yaitu

)ˆˆ)(()ˆ( 2

2

ii

ii YYYY

YYR

−−

−− ′′

′= . (4.2.5)

Kontribusi penambahan unit input i yang dinotasikan dengan 2)(iR diukur dengan

222)( ii RRR −−= . (4.2.6)

Nilai relatif dari kontribusi penambahan, baik 2)(iR dan 2

)(hR , secara deskriptif

oleh Kaashoek dan Van Dijk digunakan untuk mengevaluasi apakah suatu input

atau unit neuron di lapis tersembunyi dapat dihilangkan dari network atau tidak.


85

4.2.2. Inferensia Statistik dari Kontribusi Penambahan R2

Berbeda dengan pendekatan deskriptif yang menekankan aspek

eksplorasi data seperti pada Kaashoek dan Van Dijk (2002), pada bagian ini

akan diperkenalkan suatu prosedur baru yang berdasarkan pada inferensia

statistik dari kontribusi penambahan. Statistik uji ini dikonstruksi seperti pada

model linear yang dikenal dengan uji signifikansi bertahap. Uji ini melalui tiga

tahap utama, yaitu Model Tereduksi (Reduced Model), Model Lengkap (Full

Model), dan penentuan Uji Statistik.

Untuk mengonstruksi statistik uji ini, diperlukan modifikasi atau kondisi

tambahan selain Asumsi 3.2.1–3.2.3, 3.3.1 dan 3.3.2 pada bab sebelumnya.

Beberapa teorema dan asumsi yang dibutuhkan adalah sebagai berikut.

Teorema 4.2.1. Berdasarkan Teorema 3.3.1 diketahui bahwa

),(ˆ 2/1 ∗−∗Ν→ Cww ndn .

Jika f adalah suatu fungsi yang dapat diturunkan pada ∗w dan DDC ′*

mempunyai elemen-elemen diagonal yang semuanya tidak nol, maka

)),,(()ˆ,( 2/1 DDCww ′Ν→ ∗−∗ nXfXf td

nt ,

dengan D adalah suatu matriks )/( ji wf ∂∂ seperti yang dinyatakan pada

Proposisi 2.3.24.

Bukti: Dengan menggunakan Proposisi 2.3.24 maka bukti dari teorema ini dapat

diperoleh secara langsung.

Asumsi 4.2.1. , tt XY adalah suatu barisan variabel random yang independen

sedemikian hingga ∞<)( 2tYE , dan untuk suatu ∗w dalam lℜ , dengan

prpql )( += seperti pada Asumsi 3.2.2 sedemikian hingga

)),,((~| 20σ∗Ν wttt XfXY , ∞<< 2

00 σ , K,2,1=t .


86

Berdasarkan asumsi-asumsi tersebut, maka dapat dikonstruksi suatu teorema

berikut ini.

Teorema 4.2.2. (White, 1989a) Jika diberikan Asumsi 3.2.1–3.2.3, 3.3.1, 3.3.2

dan 4.2.1, maka untuk sembarang ln > diperoleh

20σ

SSE 2~ ln−χ ,

dengan ∑=

−=n

tntt XfYSSE

1

2)]ˆ,([ w , dan l adalah jumlah parameter yang di-

estimasi pada model )ˆ,( ntXf w .

Hasil ini selanjutnya dapat digeneralisasi untuk suatu model NN tertentu,

yaitu tntt XfY ε+= )ˆ,( w , dengan l parameter yang akan diestimasi, bahwa

220

20

1

2

~ln

SSE

n

tt

−=

∑= χ

σσ

ε.

Dengan demikian, dapat dikonstruksi uji statistik melalui beberapa tahapan

seperti Teorema berikut ini.

Teorema 4.2.3. Diberikan suatu Model Tereduksi (Reduced Model) yang secara

umum dapat ditulis dalam bentuk

)()( )ˆ,( Rt

Rntt XfY ε+= w , (4.2.7)

dengan Rl adalah jumlah parameter yang diestimasi, dan diberikan Model

Lengkap (Full Model) yang lebih kompleks dibanding Model Tereduksi, misalkan

adalah )()( )ˆ,( F

tF

ntt XfY ε+= w , (4.2.8)

dengan Fl adalah jumlah parameter yang diestimasi, dan RF ll > , maka di

bawah 0w =+∗:0H (nilai-nilai parameter (bobot) tambahan dalam model

lengkap adalah sama dengan nol), statistik

=F ])[],[()(

)()(21

~)/(

)/()(FRF lnvllv

FF

RFFR FlnSSE

llSSESSE−=−=−

−−. (4.2.9)


87

Statistik uji F ini dapat pula ditulis dalam bentuk

)()(

)()()()(

/)/()(

FF

FRFR

dfSSEdfdfSSESSE

F−−

= , (4.2.10)

dengan )(Rdf Rln −= adalah derajat bebas Reduced Model, dan )(Fdf Fln −=

adalah derajat bebas Full Model.

Bukti: Dari Model Tereduksi dan Model Lengkap diketahui bahwa RF ll > , dan

)(RSSE adalah independen dengan )(FSSE . Hal ini berimplikasi bahwa 2Rln−χ

dari model Tereduksi dan 2Fln−χ dari model Lengkap adalah independen, dengan

menggunakan implikasi Teorema Gamma Inverse Additivity (Mittelhammer 1996,

Teorema 4.4, halaman 190) diperoleh

20

)(20

)(

σσFR SSESSE

− 2~RF ll −χ .

Dengan membagi nilai tersebut dengan 2Fln−χ dari Model Lengkap, diperoleh

20)(

20)()(

/

/)(

σ

σ

F

FR

SSE

SSESSE −

)(

)()( )(

F

FR

SSESSESSE −

=

2

2

~F

RF

ln

ll

−

−

χ

χ.

Akhirnya, dengan membagi pembilang dengan selisih derajat bebas error dari

model Tereduksi dan model Lengkap, serta membagi penyebut dengan derajat

bebas error model Lengkap, dapat dibuktikan bahwa

)()(

)()()()(

/)/()(

FF

FRFR

dfSSEdfdfSSESSE −−

)/()/()(

)(

)()(

FF

RFFR

lnSSEllSSESSE

−

−−=

)(

)(2

2

Fln

RFll

ln

ll

F

RF

−

−=

−

−

χ

χ

])[];[( 21~

FRF lnvllvF −=−= .


88

Selain itu, akibat dari Teorema 4.2.3 maka statistik uji F pada

persamaan (4.2.10) dapat diturunkan dalam notasi kontribusi penambahan atau

R2incremental seperti pada Corollary berikut ini.

Corollary 4.2.1. Implikasi dari Teorema 4.2.3 maka statistik uji F pada

persamaan (4.2.10) dapat diturunkan dalam notasi kontribusi penambahan atau

R2incremental, yaitu

)(

2)(

)()(2

)(2

)(

)1(

)()(

FF

FRRF

dfR

dfdfRRF

−

−−= , (4.2.11a)

atau

)(

2)(

)()(2

lincrementa

)1(

)(

FF

FR

dfR

dfdfRF

−

−= , (4.2.11b)

dengan 2)(

2)(

2lincrementa RF RRR −= .

Bukti: Perhatikan kembali statistik uji pada Persamaan (4.2.10), yaitu

)()(

)()()()( )()(

FF

FRFR

dfSSEdfdfSSESSE

F−−

= .

Dalam pemodelan statistik, diketahui bahwa jumlah kuadrat total atau SST dapat

didekomposisikan menjadi jumlah kuadrat yang dijelaskan model (selanjutnya

dinotasikan SSR ) dan jumlah kuadrat residualnya )(SSE . Hal ini juga berlaku

pada pemodelan FFNN. Secara matematis, untuk model tereduksi (FFNN

dengan arsitektur sederhana) dan model lengkap (FFNN dengan arsitektur lebih

kompleks), hubungan tersebut dapat ditulis dengan

)()( RR SSESSRSST += ,

dan

)()( FF SSESSRSST += .


89

Karena nilai SST dari kedua model ini adalah sama, maka persamaan

(4.2.10) selanjutnya dapat ditulis dalam bentuk

)()(

)()()()(

][)]()([

FF

FRFR

dfSSRSSTdfdfSSRSSTSSRSST

F−

−−−−= ,

)()(

)()()()(

][)][

FF

FRRF

dfSSRSSTdfdfSSRSSR

−

−−= .

Melalui pembagian pembilang dan penyebut dengan SST , maka akan diperoleh

)()(

)()()()(

FF

FRRF

dfSST

SSRSST

dfdfSST

SSRSSR

F

−

−

−

= ,

)(

2)(

)()(2

)(2

)(

)1(

)()(

FF

FRRF

dfR

dfdfRR

−

−−= ,

)(

2)(

)()(2

lincrementa

)1(

)(

FF

FR

dfR

dfdfR

−

−= .

Penggunaan statistik uji untuk evaluasi kontribusi penambahan ini

dilakukan secara iteratif mulai tiga tahapan utama, yaitu (1) penaksiran model

Tereduksi, (2) penaksiran model Lengkap, dan (3) perhitungan uji statistik F ,

sampai diperoleh jumlah unit neuron di lapis tersembunyi yang optimal.

Selanjutnya, prosedur yang sama dapat dilakukan untuk mendapatkan jumlah

unit input yang optimal. Dalam hal ini, prosedur dimulai dengan menggunakan

unit input yang mempunyai nilai R2 yang terbesar.


90

4.2.3. Algoritma Pembentukan Model FFNN : Implementasi Uji Non-

linearitas, Inferensia Statistik R2incremental dan Uji Wald

Berdasarkan hasil-hasil pada bagian sebelumnya, maka suatu strategi

pembentukan model FFNN dapat dilakukan dengan mengimplementasikan uji

nonlinearitas, inferensia statistik kontribusi penambahan R2incremental, dan uji Wald.

Gambar 4.6 dan 4.7 adalah bagan yang menunjukkan dua prosedur (algoritma)

baru yang diperkenalkan untuk prosedur pembentukan model FFNN.

Prosedur pertama pada Gambar 4.6 adalah prosedur yang fokus pada

penggunaan inferensia statistik kontribusi penambahan dalam skema forward,

yang dimulai dengan penentuan jumlah unit di lapis tersembunyi yang optimal

dan dilanjutkan dengan pemilihan unit input yang optimal. Sedangkan prosedur

kedua pada Gambar 4.7 merupakan prosedur yang menggunakan kombinasi

inferensia statistik kontribusi penambahan dalam skema forward untuk

penentuan jumlah unit di lapis tersembunyi yang optimal dengan uji Wald dalam

skema backward untuk pemilihan unit input yang optimal.

Pada tahap awal di kedua prosedur tersebut dilakukan uji nonlinearitas

pada runtun waktu untuk mendeteksi adanya bentuk hubungan nonlinear pada

data. Jika tidak terbukti ada hubungan nonlinear, maka pemodelan berhenti dan

berakhir pada model runtun waktu yang linear, yaitu ARIMA. Sebaliknya, jika

terbukti ada bentuk hubungan nonlinear pada data maka strategi pembentukan

model FFNN secara iteratif dapat dilakukan dengan mengimplementasikan

inferensia R2incremental melalui statistik uji F.

Tahap pertama pembentukan model FFNN adalah menentukan jumlah

unit neuron pada lapis tersembunyi yang optimal. Dalam hal ini, strategi

pemodelan dilakukan dengan melibatkan variabel lag input yang relatif banyak,

misal lag 1 sampai 6 untuk kasus yang nonmusiman. Proses penentuan jumlah

unit neuron pada lapis tersembunyi yang optimal dilakukan dengan langkah maju

(forward) atau ”Bottom Up” dalam terminologi NN. Pada tahap ini, proses

penentuan didasarkan pada signifikansi statistik uji F untuk inferensia R2incremental

dengan bertambahnya unit neuron. Setelah diperoleh jumlah unit neuron pada


91

lapis tersembunyi yang optimal, maka tahap selanjutnya adalah penentuan

variabel lag input yang optimal.

Pada tahap penentuan variabel lag input yang optimal, proses penentuan

pada prosedur pertama dilakukan dengan langkah maju yang dimulai dengan

satu variabel lag input yang mempunyai nilai R2 paling besar. Kemudian, evaluasi

signifikansi kontribusi penambahan variabel lag input melalui inferensia

R2incremental dengan statistik uji F dilakukan secara iteratif sampai diperoleh

variabel input yang optimal. Proses berakhir dengan diperolehnya model FFNN

dengan variabel lag input dan jumlah unit neuron di lapis tersembunyi yang

optimal untuk peramalan runtun waktu. Sedangkan pada prosedur kedua,

evaluasi signifikansi parameter dari variabel lag input ke lapis tersembunyi

dilakukan melalui uji Wald. Eliminasi variabel lag input dilakukan pada parameter

dari variabel lag input yang tidak signifikan. Proses berakhir dengan diperolehnya

model FFNN terbaik untuk peramalan runtun waktu.

Implementasi dari prosedur pembentukan yang diperkenalkan ini dapat

dikombinasikan dengan memasukan kriteria pemilihan model terbaik, misalnya

Schwarz Information Criteria (SBC) pada tahap evaluasi jumlah unit neuron di

lapis tersembunyi dan penentuan variabel lag input yang optimal. Sebagai

tambahan, prosedur pembentukan model FFNN dengan hanya menggunakan

kriteria pemilihan model terbaik dapat dilihat pada Anders dan Korn (1999).


92

Mulai

Aplikasikan uji nonlinearitas untuk deteksi bentuk hubungan

nonlinear pada runtun waktu

Apakah uji nonlinearitas menunjukkan adanya bentuk

hubungan nonlinear ?

Spesifikasikan model FFNN dengan variabel input relatif banyak

dan 1 unit neuron di lapis tersembunyi sebagai tahap awal penentuan jumlah

unit neuron yang optimal

Apakah penambahan 1 unit neuron di lapis tersembunyi memberikan

R2incremental yang signifikan ?

Spesifikasikan model FFNN dengan jumlah unit neuron TETAP dari hasil

sebelumnya, dimulai dengan 1 variabel lag input yang mempunyai

nilai R2 terbesar.

Apakah penambahan 1 variabel lag input memberikan


Selesai

Gambar 4.6. Prosedur pembentukan model melalui inferensia R2incremental

YA

TIDAK

TIDAK

Aplikasikan model ARIMA

TIDAK

Masukkan 1 tambahan unit

neuron

YA

Masukkan 1 tambahan lag yg signifikan

YA


93

Mulai






dan 1 unit neuron di lapis tersembunyi sebagai tahap awal penentuan jumlah




Spesifikasikan model FFNN dengan jumlah unit neuron TETAP dari hasil sebelumnya, gunakan jumlah yang relatif cukup banyak untuk variabel

lag input yang ada pada model.

Melalui uji Wald, Apakah terdapat variabel lag input

yang tidak signifikan?

Selesai

Gambar 4.7. Prosedur kombinasi inferensia R2incremental dan uji Wald

YA

TIDAK

TIDAK


TIDAK


neuron

YA

Eliminasi lag variabel yg

tdk signifikan.

YA

- 94 -

BAB V HASIL EMPIRIS

Ada empat macam kajian empiris utama yang telah dilakukan dalam

penelitian ini. Kajian pertama dilakukan untuk menunjukkan bahwa statistik uji F

untuk inferensia R2incremental dan uji Wald secara empiris dapat bekerja dengan

baik dalam proses penentuan model FFNN terbaik pada suatu data runtun waktu

univariat. Bagian ini dilakukan dengan menggunakan suatu data simulasi untuk

runtun waktu univariat yang nonlinear.

Kajian empiris kedua difokuskan pada perbandingan ketepatan ramalan

antara FFNN dengan model-model runtun waktu klasik. Ada dua kasus real

utama yang digunakan pada kajian ini, yaitu data inflasi bulanan di Indonesia dan

data jumlah penumpang pesawat udara internasional yang dikenal dengan Airline

Data. Data kedua ini merupakan salah satu data sentral yang menjadi kasus

utama pada kompetisi NN untuk peramalan pada Juni 2005 (lihat www.neural-

forecasting.com).

Pada kajian ketiga, fokus penelitian dilakukan pada pengenalan metode

baru untuk pemrosesan awal data NN, terutama pada kasus runtun waktu yang

mengandung tren dan musiman. Kajian ini memberikan peluang untuk

pembentukan model hybrid yang merupakan kombinasi dari model-model runtun

waktu dengan FFNN. Sebagai studi kasus digunakan data seperti pada kajian

kedua, yaitu Airline Data.

Pada akhirnya, kajian empiris dilakukan pada aplikasi FFNN untuk

peramalan runtun waktu multivariat. Fokus kajian adalah pada kasus spasial

runtun waktu. Pada bagian ini dilakukan pula evaluasi terhadap model space-

time, yaitu model Generalized Space Time Autoregressive (GSTAR), khususnya

evaluasi terhadap kondisi stasioneritas model GSTAR(11) dan metode penentuan

bobot spasial. Selain itu, diberikan pula hasil-hasil perbandingan ketepatan

ramalan antara FFNN dengan model-model runtun waktu multivariat. Sebagai

studi kasus, digunakan data produksi minyak pada tiga lokasi sumur pengeboran.

Bab V. Hasil Empiris

95

5.1 Pembentukan FFNN melalui Inferensia R2incremental dan Uji Wald

Ada dua prosedur pembentukan model FFNN yang digunakan dalam

bagian ini, yaitu langkah maju (forward) dan langkah mundur (backward). Dua

prosedur ini diimplementasikan pada suatu data simulasi. Penerapan uji statistik

untuk inferensia R2incremental dilakukan pada prosedur forward sesuai dengan

algoritma yang diperkenalkan pada bagian 4.3.

Eksperimen simulasi ini dilakukan dengan tujuan utama untuk menunjuk-

kan bagaimana prosedur pembentukan model NN yang diperkenalkan dapat

bekerja dengan baik. Data simulasi yang dibangkitkan adalah data yang

mengikuti model Exponential Smoothing Transition Autoregressive (ESTAR),

yaitu

tttt uYYY +−= −− ) 25.0exp( . 5.6 211 , (5.1.1)

dengan )5.0,0(IIDN~ 2tu .

Plot runtun waktu dan plot variabel lag dari data ini dapat dilihat pada

Gambar 5.1. Dari gambar ini dapat diamati bahwa data mengikuti suatu pola

yang stasioner, dan ada hubungan nonlinear yang kuat antara data tY dengan

data lag 1 atau 1−tY . Bentuk ini dikenal dengan autoregresi nonlinear pada lag 1.

5.1.1. Hasil Prosedur Backward versi Kaashoek dan Van Dijk

Prosedur backward yang dilakukan pada bagian ini adalah prosedur yang

diperkenalkan oleh Kaashoek dan Van Dijk (2002). Aplikasi dari prosedur ini

dimulai dengan FFNN yang melibatkan enam variabel lag input

),,,( 621 −−− ttt YYY K , satu input konstan dan enam unit neuron di lapis

tersembunyi. Secara umum, ada dua tahapan pada prosedur backward, yaitu

penentuan banyaknya unit neuron yang optimal di lapis tersembunyi dan

penentuan variabel lag input yang optimal. Proses penentuan banyaknya unit

neuron dan variabel lag input dilakukan secara simultan. Hasil-hasil optimisasi

untuk penentuan banyaknya unit neuron di lapis tersembunyi dapat dilihat pada

Tabel 5.1 dan 5.2.


96

Gambar 5.1. Plot runtun waktu dan plot variabel lag (yt-1, yt-2) dari data simulasi

Tabel 5.1. Hasil-hasil penentuan banyaknya unit yang optimal di lapis tersem-

bunyi dengan prosedur backward versi Kaashoek dan Van Dijk

Tahap Banyaknya unit di lapis tersembunyi SBC R2 R2

incr PCA

1 6 unit (6 input) -62,1157 0,98668 * tanpa h1 0,79924 0,18744 0,127 tanpa h2 0,07076 0,91592 0,843 tanpa h3 0,95844 0,02824 -0,043 tanpa h4 0,44489 0,54179 -0,371 tanpa h5 0,66586 0,32082 -0,365 tanpa h6 0,98010 0,00658 0,017 2 4 unit (1 input) -122,833 0,97545 * tanpa h1 0,95258 0,02288 -0,014 tanpa h2 0,22184 0,75361 0,737 tanpa h3 0,40196 0,57350 -0,675 tanpa h4 0,88360 0,09185 0,041 3 2 unit (1 input) -137,764 0,97246 * tanpa h1 0,36845 0,60588 0,762 tanpa h2 0,24701 0,72732 -0,610


97

Pada tahap pertama, dengan membandingkan kontribusi penambahan

dan nilai-nilai vektor eigen dari HH EE −−′ , maka unit neuron ke 3 dan 6 dapat

dikeluarkan dari model. Selanjutnya, secara simultan dari hasil pada Tabel 5.2

dapat dijelaskan bahwa unit input variabel lag 2 sampai dengan 6 atau

),,,( 621 −−− ttt YYY K dapat dikeluarkan dari model. Tahap ini memberikan hasil

sementara yaitu model FFNN dengan satu input variabel lag, yaitu lag 1, dan

empat unit neuron di lapis tersembunyi, yang dapat dinotasikan dengan

FFNN(1,4,1). Secara grafik, output dari network dengan mengeluarkan satu input

variabel lag dapat dilihat pada Gambar 5.2.

Tabel 5.2. Hasil-hasil penentuan unit input yang optimal dengan

prosedur backward versi Kaashoek dan Van Dijk

Tahap Lag unit input SBC R2 R2incr PCA

1 6 (lag 1-6) -62,1157 0,98668 *

tanpa lag 1 0,00476 0,98192 0,997

tanpa lag 2 0,96040 0,02628 0,042

tanpa lag 3 0,97614 0,01053 0,032

tanpa lag 4 0,97417 0,01251 -0,014

tanpa lag 5 0,96432 0,02235 -0,029

tanpa lag 6 0,97417 0,01251 -0,045

Hasil dari jalannya optimisasi lanjutan, yaitu tahap 2 dan 3, dapat dilihat

pada Tabel 5.1. Tahap 2 optimisasi menunjukkan bahwa unit neuron ke 1 dan 4

di lapis tersembunyi dapat dikeluarkan dari model. Dengan demikian, arsitektur

optimal dari FFNN untuk data simulasi ini dengan prosedur backward adalah

FFNN dengan satu unit input, 1−tY , dan dua unit neuron di lapis tersembunyi atau

FFNN(1,2,1).


98

Gambar 5.2. Output FFNN(6,6,1) tanpa satu unit variabel lag ),,,( 621 −−− ttt YYY K

dibandingkan dengan data aktual

5.1.2. Hasil Prosedur Forward melalui Uji R2incremental untuk Penentuan

Banyaknya Unit di Lapis Tersembunyi dan Unit Input yang Optimal

Berdasarkan algoritma prosedur forward yang dikonstruksi dan diper-

kenalkan pada bagian 4.3, penentuan arsitektur FFNN optimal dimulai pada

suatu FFNN dengan enam variabel input ),,,( 621 −−− ttt YYY K dan satu input

konstan untuk mendapatkan banyaknya unit neuron optimal di lapis tersembunyi.

Hasil dari tahap-tahap optimisasi dapat dilihat pada Tabel 5.3.


99

Table 5.3. Hasil-hasil penentuan banyaknya unit neuron yang optimal di lapis tersembunyi dengan prosedur forward melalui uji R2

incremental

Banyaknya unit neuron di lapis

tersembunyi SBC R2 R2

incremental Uji F p-value

0 1 2 3 4 5 6

234,4843 182,0737 -72,8918 -61,4821 -45,5007 -33,6011 2,70047

0,161569 0,547258 0,975535 0,981029 0,984601 0,987999 0,988065

- 0,385689 0,428277 0,005494 0,003572 0,003398 0,000066

- 28,5667

7,7719 0,0518 0,0300 0,0251 0,0004

- 0,00000 0,00000 0,99993 0,99999 1,00000 1,00000

Tabel 5.3 menunjukkan bahwa banyaknya unit neuron di lapis

tersembunyi sebesar 2 adalah hasil yang optimal dan jalannya optimisasi

selanjutnya tidak diperlukan lagi. Grafik dari output network dengan

menambahkan satu unit neuron di lapis tersembunyi dapat dilihat pada Gambar

5.3. Dengan demikian, proses optimisasi dilanjutkan untuk menentukan variabel

input yang optimal.

Gambar 5.3. Output network dengan menambahkan satu unit neuron di lapis tersembunyi dibandingkan dengan data aktual


100

Hasil-hasil optimisasi untuk penentuan input yang optimal dapat dilihat

pada Tabel 5.4. Dari tabel ini dapat dijelaskan bahwa unit input 1, yaitu 1−tY ,

adalah unit lag input yang optimal dari network. Dengan demikian, prosedur

forward menghasilkan arsitektur terbaik dari network yaitu FFNN dengan satu

input variabel lag dan dua unit neuron di lapis tersembunyi atau FFNN(1,2,1).

Tabel 5.4. Hasil-hasil penentuan unit input yang optimal dengan

prosedur forward melalui uji R2incremental

Lag input SBC R2 R2

incremental Uji F p-value

1 2 3 4 5 6

-137,764 235,233 272,478 284,580 285,902 278,594

0,97246 0,38365 0,15933 0,07013 0,05983 0,11538

- - - - - -

- - - - - -

- - - - - -

1 dan 2 1 dan 3 1 dan 4 1 dan 5 1 dan 6

-130,900 -129,091 -129,109 -128,554 -130,326

0,97308 0,97267 0,97267 0,97255 0,97295

0,00062 0,00021 0,00021 0,00008 0,00049

1,23955 0,41540 0,42346 0,16830 0,97934

0,29349 0,66110 0,65583 0,84532 0,37878

Secara umum, hasil-hasil kajian simulasi pada prosedur backward dan

forward menunjukkan bahwa arsitektur FFNN optimal yang dihasilkan oleh kedua

prosedur adalah sama, yaitu FFNN(1,2,1). Hasil ini juga menunjukkan bahwa

prosedur forward dengan implementasi inferensia R2incremental terbukti dapat

bekerja dengan baik untuk penentuan model FFNN terbaik. Perbandingan

banyaknya running untuk mendapatkan arsitektur FFNN terbaik menunjukkan

bahwa prosedur forward ini memberikan jumlah running yang lebih kecil daripada

prosedur yang diperkenalkan Kaashoek dan Van Dijk. Sebagai tambahan, hasil-

hasil dari kajian ini telah dipublikasikan dan secara lengkap dapat dilihat pada

Suhartono dkk. (2006a, 2006b), serta Subanar dan Suhartono (2006b).


101

5.1.3. Hasil Prosedur Backward dengan Uji Wald untuk Pemilihan Unit

Input yang Optimal

Pada bagian ini hanya akan diberikan hasil-hasil optimisasi pemilihan unit

input yang optimal, karena hasil penentuan banyaknya unit yang optimal di lapis

tersembunyi adalah sama dengan hasil bagian sebelumnya. Hasil optimisasi

untuk penentuan input ini dapat dilihat pada Tabel 5.5. Dari tabel ini dapat

dijelaskan bahwa unit input 1, yaitu 1−tY , adalah unit lag input yang optimal dari

network, karena memberikan nilai-nilai parameter yang secara statistik signifikan

berbeda dengan nol. Hal ini ditunjukkan oleh nilai p-value dari uji Wald yang lebih

kecil dari 0,05. Dengan demikian, prosedur backward melalui uji Wald

menghasilkan arsitektur terbaik dari network yaitu FFNN dengan satu input

variabel lag dan dua unit neuron di lapis tersembunyi atau FFNN(1,2,1).

Tabel 5.5. Hasil-hasil penentuan banyaknya unit di lapis tersembunyi

yang optimal dengan prosedur backward melalui uji Wald

Weights Coefficient S.E. Wald test p-value

b ->h1 1->h1 2->h1 3->h1 4->h1 5->h1 6->h1 b->h2 1->h2 2->h2 3->h2 4->h2 5->h2 6->h2 b->o

h1->o h2->o

-0,0122 0,9630 -0,0165 -0,0016 -0,0060 -0,0009 0,0020 -0,0005 1,3477 -0,0175 -0,0038 -0,0048 -0,0006 -0,0008 0,3878

-77,4291 76,5030

0,0352 0,0556 0,0108 0,0068 0,0068 0,0071 0,0069 0,0369 0,0746 0,0116 0,0081 0,0080 0,0080 0,0078 0,1474

23,8600 23,9097

0,1203

300,0898 2,3532 0,0555 0,7712 0,0162 0,0846 0,0002

326,0336 2,2753 0,2198 0,3584 0,0057 0,0104 6,9216

10,5307 10,2381

0,728733 0,000000 0,125021 0,813763 0,379829 0,898732 0,771153 0,989196 0,000000 0,131440 0,639206 0,549406 0,939963 0,918691 0,008515 0,001174 0,001376

Secara umum, hasil-hasil kajian simulasi pada prosedur backward melalui

uji Wald dan forward menunjukkan bahwa arsitektur FFNN optimal yang

dihasilkan oleh ketiga prosedur adalah sama, yaitu FFNN(1,2,1). Hasil ini juga


102

menunjukkan bahwa kedua prosedur baru yang diperkenalkan, yaitu

implementasi inferensia R2incremental dan uji Wald terbukti dapat bekerja dengan

baik untuk penentuan model FFNN terbaik. Seperti pada bagian sebelumnya,

perbandingan banyaknya running untuk mendapatkan arsitektur FFNN terbaik

menunjukkan bahwa prosedur backward melalui uji Wald ini memberikan jumlah

running yang lebih kecil daripada prosedur yang diperkenalkan Kaashoek dan

Van Dijk. Sebagai tambahan, hasil-hasil kajian ini telah dipublikasikan dan secara

lengkap dapat dilihat pada Suhartono dkk. (2006a, 2006b), serta Subanar dan

Suhartono (2006b).

5.2. Perbandingan Ketepatan Ramalan antara FFNN dan Model

Runtun Waktu Univariat Klasik

Kajian perbandingan ini dilakukan pada dua kasus real, yaitu data inflasi

Indonesia dan data jumlah penumpang pesawat internasional (Airline data).

Ramalan inflasi Indonesia pada bulan-bulan yang akan datang merupakan salah

satu topik kompetisi rutin yang diadakan oleh Bank Indonesia. Sedangkan, Airline

data adalah salah satu data yang paling banyak dipakai sebagai benchmark

untuk perbandingan antar beberapa model peramalan (Faraway dan Chatfield,

1998).

5.2.1. Hasil Perbandingan pada Kasus Inflasi Indonesia

Data inflasi Indonesia yang digunakan dalam kajian ini adalah inflasi

bulanan yang diamati mulai Januari 1999 sampai dengan April 2005, atau terdiri

dari 76 pengamatan. Pembentukan model dilakukan pada 72 data pertama

(dalam model NN dikenal sebagai data training), dan 4 data terakhir digunakan

sebagai evaluasi dan perbandingan ketepatan ramalan (data testing). Secara

grafik, data inflasi ini dapat dilihat pada Gambar 5.4. Dari gambar ini dapat

dijelaskan bahwa data mempunyai pola yang relatif stasioner dengan sedikit

variasi musiman.


103

Ada empat model peramalan yang digunakan dalam kajian perbandingan

ini, yaitu model ARIMA, Kombinasi Intervensi dan Variasi Kalender (ARIMAX),

FFNN dengan input seperti ARIMA, dan FFNN dengan input seperi ARIMAX.

Model ARIMAX digunakan terutama untuk mengevaluasi efek adanya hari raya

Idul Fitri dan kenaikan harga bahan bakar minyak (BBM) terhadap inflasi.

Penentuan model terbaik dilakukan dengan metode cross validation, yaitu model

yang memberikan kesalahan terkecil pada ramalan data testing. Secara lengkap,

tahapan pembentukan model untuk masing-masing model peramalan pada

kajian ini dapat dilihat pada Suhartono (2005).

Gambar 5.4. Plot runtun waktu inflasi Indonesia, Januari 1999 – April 2005.

Evaluasi perbandingan ketepatan ramalan untuk menentukan model

terbaik difokuskan pada ramalan secara dinamis pada data testing.

Perbandingan dilakukan dengan menggunakan nilai Mean Squares of Error

(MSE), dan rasio kesalahan ramalan (yang diwakili oleh MSE) pada masing-

masing model terhadap kesalahan ramalan model FFNN dengan input

berdasarkan model ARIMAX dan hasilnya dapat dilihat pada Tabel 5.6.


104

Tabel 5.6. Ringkasan hasil perbandingan ramalan secara dinamis

Model Peramalan MSE (data testing)

Rasio MSE (terhadap FFNN dengan input seperti ARIMAX)

§ ARIMA(1,0,0)(1,0,0)11 0,6826480 3,02

§ ARIMAX 0,2407240 1,07

§ FFNN dengan input seperti ARIMA 0,4711709 2,08

§ FFNN dengan input seperti ARIMAX 0,2261001 1,00

Pada Tabel 5.6, angka lebih dari satu di kolom rasio MSE mengindikasi-

kan performansi ramalan yang ketepatannya lebih rendah dibandingkan hasil

ramalan model FFNN dengan input seperti ARIMAX. Berdasarkan hasil pada

tabel ini, dapat disimpulkan bahwa FFNN dengan input seperti ARIMAX adalah

model yang terbaik. Secara khusus, hasil uji linearitas dengan input seperti

ARIMAX menunjukkan tidak ada hubungan nonlinear pada data. Kondisi ini

berimplikasi pada hasil ketepatan ramalan model ARIMAX dan FFNN dengan

input seperti ARIMAX tidak berbeda nyata. Hasil dari kajian perbandingan ini

secara lengkap dapat dilihat di Suhartono (2005), dan Suhartono dkk. (2006c).

5.2.2. Hasil Perbandingan pada Airline Data

Data jumlah penumpang pesawat internasional (Airline data) terdiri dari

144 pengamatan bulanan, yaitu mulai Januari 1949 sampai Desember 1960.

Pada kajian ini, 120 pengamatan pertama digunakan sebagai data training dan

24 pengamatan terakhir sebagai data testing. Gambar 5.5 adalah plot runtun

waktu dari data Airline. Dari gambar ini dapat dilihat dengan jelas bahwa data

mengandung pola tren naik dan variasi musiman.

Pada kasus kedua ini, lima model peramalan digunakan dalam kajian

perbandingan ini, yaitu model Winter’s, Dekomposisi, Regresi Runtun waktu,

ARIMA, dan FFNN. Seperti pada kasus pertama, penentuan model terbaik

dilakukan dengan metode cross validation, yaitu model yang memberikan

kesalahan terkecil pada ramalan data testing.


105

Gambar 5.5. Plot runtun waktu data jumlah penumpang pesawat internasional

Hasil pembentukan model Winter’s dengan grid sebesar 0,1 untuk ketiga

parameter memberikan dua model terbaik, yaitu model 1 (Winter’s dengan

α =0.9, β =0.1 dan γ =0.3) dan model 2 (Winter’s dengan α =0.1, β =0.2 dan

γ =0.4). Selanjutnya, proses pembentukan model ARIMA dilakukan pada data

yang terlebih dulu ditransformasi ln untuk menstasionerkan variansi data. Melalui

prosedur Box-Jenkins diperoleh dua model dugaan yang sesuai, yaitu model 1

(ARIMA[0,1,1][0,1,1]12) dan model 2 (ARIMA[1,1,0][0,1,1]12).

Sedangkan proses pembentukan model FFNN dilakukan dengan 3

variabel lag input (yaitu 13121 ,, −−− ttt YYY ) dan banyaknya unit neuron di lapis ter-

sembunyi mulai 1 sampai 3. Dalam hal ini model 1, 2, dan 3 secara berurutan

menunjukkan banyaknya unit neuron di lapis tersembunyi sebanyak 1, 2, dan 3.

Secara lengkap tahapan pembentukan model untuk kelima model peramalan

pada kajian ini secara lengkap dapat dilihat pada Suhartono dkk. (2005a).

Hasil evaluasi perbandingan ketepatan ramalan dari kelima model

peramalan dapat dilihat pada Tabel 5.7. Dari tabel ini dapat dijelaskan bahwa

model yang memberikan ramalan lebih baik di data training tidak selalu juga

memberikan hasil ramalan yang lebih baik di data testing. Hal ini dapat dilihat

pada hasil model Winter’s, ARIMA dan FFNN.

Testing data

Training data


106

Tabel 5.7. Hasil perbandingan antara kelima model peramalan pada data

training dan testing

DATA TRAINING DATA TESTING MODEL PERAMALAN

MSE MAE MAPE MSE MAE MAPE

§ Winter’s (*) a. Model 1 b. Model 2 § Dekomposisi (*)

§ Regresi Runtun Waktu (*) § ARIMA a. Model 1 b. Model 2 § FFNN a. Model 1 b. Model 2 c. Model 3

97,734 146,858

215,457

198,156

88,644 88,862

93,147 85,846 70,172

7,302 9,406

11,470

10,213

7,387 7,333

7,631 7,370 6,610

3,183 4,056

5,059

4,138

2,954 2,926

3,174 3,100 2,798

12096,80 3447,82

1354,88

2196,87

1693,68 1527,03

1282,31 299713,20

11216,48

101,501 52,109

29,974

42,971

37,401 35,306

32,623 406,992

62,988

21,784 11,455

6,175

9,943

8,034 7,580

7,292 88,411 12,384

(*) : error atau residual dari model tidak white noise

Berdasarkan hasil perbandingan pada Tabel 5.7 di atas, secara umum

dapat dilihat bahwa FFNN dengan 1 unit neuron di lapis tersembunyi mem-

berikan nilai MSE yang terkecil, sedangkan model Dekomposisi menghasilkan

nilai Mean Absolute Error (MAE) dan Mean Absolute Percentage Error (MAPE)

yang terkecil. Evaluasi kesesuaian model melalui uji apakah residual model

memenuhi syarat white noise menunjukkan bahwa residual dari model Winter’s,

Dekomposisi, dan Regresi Runtun waktu adalah belum white noise. Secara

statistik, hal ini berarti proses pemodelan pada ketiga model ini belum selesai

dan dapat dilanjutkan dengan menggunakan model peramalan yang lain. Hasil ini

memberikan peluang untuk dilakukan penelitian lanjutan dengan

mengkombinasikan ketiga model ini dengan model yang lain, misalnya dengan

ARIMA atau FFNN. Sebagai tambahan, seperti pada hasil-hasil sebelumnya,

hasil kajian perbandingan untuk Airline data ini juga telah dipublikasikan dan

secara lengkap dapat dilihat pada Suhartono dkk. (2005a, 2005c).


107

5.3. Efek Pemrosesan Awal Data Terhadap Ramalan FFNN

Hasil dari kajian perbandingan antara FFNN dan model-model runtun

waktu klasik di bagian sebelumnya, terutama pada kasus Airline data

memberikan inspirasi untuk dilakukan penelitian lanjutan tentang suatu model

hybrid yang merupakan gabungan antara model runtun waktu klasik dan FFNN.

Pada bagian ini akan diberikan hasil-hasil kajian kombinasi antara metode

dekomposisi sebagai pemrosesan awal data dan FFNN, khususnya untuk

peramalan runtun waktu yang mengandung tren dan musiman. Efek pemrosesan

awal data merupakan salah satu topik sentral pada kompetisi NN untuk

peramalan pada Juni 2005 (lihat www.neural-forecasting.com).

Metode dekomposisi adalah metode peramalan yang bekerja dengan

cara mendekomposisi data menjadi beberapa bagian, terutama komponen tren

dan musiman. Pada bagian ini, metode pemrosesan awal data yang dicoba dan

dibandingkan efeknya adalah detrend, deseasonal, dan detrend-deseasonal

(metode dekomposisi). Kajian ini dilakukan pada dua data, yaitu data simulasi

dan Airline data, yang keduanya mengandung pola tren dan musiman. Gambar

5.6 berikut ini adalah plot runtun waktu dari data simulasi.

Gambar 5.6. Plot runtun waktu dari data simulasi

Testing data

Training data

Simulation data

http://www.neural-forecasting.com


108

Tabel 5.8 adalah hasil-hasil dari efek pemrosesan awal data terhadap

ketepatan ramalan model FFNN pada data training dan testing untuk data

simulasi. Seperti pada bagian sebelumnya, angka lebih dari satu pada kolom

rasio MSE mengindikasikan bahwa ketepatan ramalan pada model tersebut

adalah lebih rendah dibanding model ARIMA, dan sebaliknya. Sedangkan hasil-

hasil efek pemrosesan awal data FFNN pada Airline data dapat dilihat pada

Tabel 5.9. Dalam hal ini, variabel lag input yang digunakan dalam FFNN adalah

lag 1, 12, dan 13, seperti yang telah dipakai oleh Faraway dan Chatfield (1998),

dan Suhartono dkk. (2005a). Sedangkan banyaknya unit neuron di lapis

tersembunyi yang dicobakan adalah 1 sampai 10. Sehingga secara umum FFNN

yang dipakai adalah FFNN(3,q,1), dengan q adalah banyaknya unit neuron di

lapis tersembunyi.

Ada beberapa hal yang dapat diamati dari Tabel 5.8 dan 5.9. Pertama,

detrend adalah pemrosesan awal data FFNN yang menghasilkan nilai ramalan

yang lebih rendah akurasinya dibanding dengan FFNN pada data asli ataupun

ARIMA. Hal ini ditunjukkan oleh nilai rasio MSE pada data testing untuk NN

dengan detrend sebagai pemrosesan awal data yang lebih besar dari 1. Kedua,

deseasonal adalah pemrosesan awal data FFNN yang menghasilkan nilai

ramalan yang paling rendah akurasinya dibanding lainnya. Kondisi ini ditunjukkan

oleh nilai rasio MSE pada data testing yang paling besar. Ketiga, metode

dekomposisi atau kombinasi detrend-deseasonal sebagai pemrosesan awal data

FFNN memberikan ketepatan ramalan yang paling akurat, baik pada data

simulasi ataupun Airline data. Hal ini ditunjukkan oleh nilai rasio MSE yang paling

kecil.

Secara umum, berdasarkan nilai-nilai rasio MSE terhadap model ARIMA

dapat dijelaskan bahwa metode dekomposisi (detrend-deseasonal) adalah

pemrosesan awal data pada FFNN yang menghasilkan ramalan terbaik. Nilai

MSE yang tereduksi sangat signifikan jika dibandingkan dengan FFNN tanpa

pemrosesan dengan metode dekomposisi, yaitu tereduksi 58.8% pada data

simulasi dan 61.8% pada Airline data.


109

Tabel 5.8. Hasil perbandingan efek pemrosesan awal data untuk FFNN dan ARIMA pada data simulasi

DATA TRAINING DATA TESTING

Model Peramalan dan Pemrosesan awal data MSE Rasio thdp

ARIMA MSE Rasio thdp ARIMA

§ ARIMA

0,02347

1

0,02011

1

§ FFNN (1). Data Asli a. FFNN (3,1,1) (**)

b. FFNN (3,10,1) (*) (2). Detrend a. FFNN (3,2,1) (**) b. FFNN (3,10,1) (*) (3). Deseasonal §. FFNN (3,3,1) (**) (*) (4). Detrend-Deseasonal a. FFNN (3,5,1) (**) b. FFNN (3,10,1) (*)

0,01731 0,00598

0,01701 0,00697

0,55763

0,00511 0,00364

0,738 0,255

0,725 0,297

23,762

0,218 0,155

0,02433 0,40411

0,02524 0,07230

2,95179

0,00948 4,30889

1,210 20,095

1,255 3,595

146,782

0,472 214,266

(*) : model terbaik pada data training (**) : model terbaik pada data testing

Tabel 5.9. Hasil perbandingan efek pemrosesan awal data untuk FFNN

dan ARIMA pada data Airline

DATA TRAINING DATA TESTING Model Peramalan dan Pemrosesan awal data MSE Rasio thdp

ARIMA MSE Rasio thdp ARIMA

§ ARIMA

88,8618

1

1527,03

1

§ FFNN dan transformasi

data menjadi N(0,1) (1). Data Asli a. FFNN (3,1,1) (**)

b. FFNN (3,10,1) (*) (2). Detrend a. FFNN (3,4,1) (**) b. FFNN (3,10,1) (*) (3). Deseasonal a. FFNN (3,6,1) (**) b. FFNN (3,10,1) (*) (4). Detrend-Deseasonal a. FFNN (3,4,1) (**) b. FFNN (3,10,1) (*)

92,8729 26,3230

71,0023 20,2050

25,2444 12,9047

35,4608 11,3842

1,045 0,296

0,799 0,227

0,284 0,145

0,399 0,128

1219,81 5299,06

1672,27 5630,35

4218,18 255939,30

582,93 1532,17

0,799 3,470

1,095 3,687

2,762 167,609

0,382 1,003

(*) : model terbaik pada data training (**) : model terbaik pada data testing


110

Dengan demikian dapat disimpulkan bahwa pemrosesan awal data runtun

waktu yang mengandung tren dan musiman dengan metode dekomposisi pada

FFNN memberikan efek yang besar terhadap peningkatan akurasi nilai ramalan

pada FFNN. Hasil ini juga memberikan peluang untuk kajian lebih lanjut terhadap

pemakaian model hybrid antara FFNN dengan model-model runtun waktu yang

lain. Seperti pada bagian sebelumnya, hasil-hasil dari kajian ini telah pula

dipublikasikan dan secara lengkap dapat dilihat pada Suhartono dkk. (2005b),

serta Suhartono dan Subanar (2006a).

5.4. Aplikasi FFNN untuk Peramalan Runtun waktu Multivariat

Data runtun waktu dalam beberapa studi empiris seringkali terdiri dari

pengamatan dari beberapa variabel, atau dikenal dengan data deret waktu

multivariat (Box dkk., 1994). Sebagai contoh, dalam studi tentang penjualan

suatu produk, variabel-variabel yang mungkin terlibat adalah volume penjualan,

harga dan biaya iklan.

Seringkali dalam kehidupan sehari-hari kita jumpai data yang tidak hanya

mengandung keterkaitan dengan kejadian pada waktu-waktu sebelumnya, tetapi

juga mempunyai keterkaitan dengan lokasi atau tempat yang lain yang seringkali

disebut dengan data spasial. Model space-time adalah salah satu model yang

menggabungkan unsur dependensi waktu dan lokasi pada suatu data deret

waktu multivariat. Model space-time ini pertama kali diperkenalkan oleh Pfeifer

dan Deutsch (1980a, 1980b).

Model GSTAR (Generalized Space-Time Autoregressive) adalah salah

satu model yang banyak digunakan untuk memodelkan dan meramalkan data

deret waktu dan lokasi. Model ini merupakan pengembangan dari model STAR

(Space-Time Autoregressive) yang diperkenalkan oleh Pfeifer dan Deutsch.

Dalam praktek, model GSTAR ini banyak diaplikasikan pada permasalahan

geologi dan ekologi (Ruchjana, 2003). Model lain yang juga dapat digunakan

untuk pemodelan data deret waktu dan lokasi adalah model VAR atau Vector

Autoregressive (Suhartono dan Atok, 2005).


111

Secara matematis, notasi dari model GSTAR(p1) adalah sama dengan

model STAR(p1). Perbedaan utama dari model GSTAR(p1) ini terletak pada nilai-

nilai parameter pada lag spasial yang sama diperbolehkan berlainan. Dalam

notasi matriks, model GSTAR(p1) dapat ditulis sebagai berikut (Borovkova dkk.,

2002)

[ ] )()()(1

10 tkttp

kkk eZWΦΦZ +−+= ∑

= (5.4.1)

dengan

§ ( )Nk0

1k00 ,,diag φφ K=kΦ dan ( )N

k11k11 ,,diag φφ K=kΦ ,

§ bobot-bobot dipilih sedemikian hingga 0=iiw dan ∑ ≠ =ji ijw 1 .

Sebagai contoh, model GSTAR(11) untuk kasus produksi minyak pada

suatu waktu di tiga lokasi yang berbeda dapat ditulis sebagai berikut (Ruchjana,

2002)

)()1(][)( 1110 ttt eZWΦΦZ +−+= (5.4.2)

atau

+

−−−

+

=

)()()(

)1()1()1(

00

0

000000

000000

)()()(

3

2

1

3

2

1

3231

2321

1312

31

21

11

30

20

10

3

2

1

tetete

tztztz

wwwwww

tztztz

φφ

φ

φφ

φ.

Penaksiran parameter model GSTAR dapat dilakukan dengan menggunakan

metode kuadrat terkecil dengan meminimumkan jumlah kuadrat simpangannya.

Secara lengkap teori dan metodologi yang berkaitan dengan estimasi model

GSTAR ini dapat dibaca di Borovkova et al. (2002) dan Ruchjana (2002).

Pada bagian ini ada tiga kajian utama yang dilakukan, yaitu evaluasi

terhadap kondisi stasioneritas model space-time GSTAR(11), evaluasi metode

penentuan bobot lokasi (spasial), dan kajian perbandingan ketepatan ramalan

antara FFNN dengan model-model runtun waktu multivariat. Dalam hal ini, kajian

difokuskan pada runtun waktu multivariat yang juga merupakan spasial runtun

waktu.


112

5.4.1. Evaluasi Kondisi Stasioneritas Model GSTAR(11)

Borovkova dkk. (2002) dan Ruchjana (2003) menyatakan bahwa model

GSTAR, khususnya model GSTAR(11), merupakan model versi terbatas

(restricted version) dari model VAR. Oleh sebab itu, kondisi stasioneritas dari

model GSTAR dapat diturunkan dari kondisi stasioneritas pada model VAR.

Jika diberikan )(tZ i dengan Τ∈t , ,,2,1 TK=Τ merupakan indeks

parameter waktu dan ,,2,1 Ni K= menunjukkan variabel yang terhitung dan

terbatas (misalkan berupa hasil minyak bulanan pada lokasi yang berbeda),

maka model VAR(p) secara umum dapat dinyatakan dalam (lihat Brockwell dan

Davis, 1991; Hamilton, 1994; atau Wei, 1990)

)()()2()1( )( 21 tptttt p eZΦZΦZΦZ +−++−+−= L , (5.4.3)

dengan )(tZ adalah vektor deret waktu multivariat yang terkoreksi nilai rata-

ratanya, )(BiΦ adalah suatu matriks autoregressive polinomial orde i, dan )(te

menyatakan suatu vektor error yang white noise.

Kondisi stasioneritas dari model VAR(p) dapat ditemukan pada beberapa

buku runtun waktu, antara lain di Brockwell dan Davis (1991), Hamilton (1994),

atau Wei (1990). Berikut ini adalah proposisi yang berkaitan dengan kondisi

stasioneritas pada model VAR(p).

Proposisi 5.4.1. Suatu model VAR(p) adalah proses yang stasioner jika nilai-nilai

eigen dari matrik autoregressive polinomial orde p yang memenuhi

022

11 =−−−− −−

pppp

n ΦΦΦI Lλλλ

semuanya berada didalam unit lingkaran, atau 1|| <λ .

Bukti. Lihat Hamilton (1994) halaman 285-286.

Secara khusus, model GSTAR(11), )()1(][)( 1110 ttt eZWΦΦZ +−+= ,

dapat direpresentasikan dalam model VAR(1), )()1()( 1 ttt eZΦZ +−= , dengan

][ 11101 WΦΦΦ += . (5.4.4)


113

Dengan demikian, model GSTAR(11) secara umum adalah suatu proses yang

stasioner jika semua nilai eigen dari matrik [ ]WΦΦ 1110 + memenuhi Proposisi

5.4.1, yaitu semua eigen berada didalam unit lingkaran atau 1|| <λ .

Borovkova dkk. (2002) dan Ruchjana (2003) menerapkan Proposisi 5.4.1,

dan mendapatkan suatu teorema untuk kondisi stasioneritas model GSTAR(11)

seperti berikut.

Teorema 5.4.1. Suatu model GSTAR(11) adalah suatu proses yang stasioner,

jika parameter-parameter 0iφ pada 10Φ dan 1iφ pada 11Φ memenuhi

1|| 10 ≤+ ii φφ dan 1|| 10 ≤− ii φφ . (5.4.5)

Berikut ini akan ditunjukkan secara empiris beberapa kasus dimana

Teorema 5.4.1 yang dihasilkan oleh Borovkova dkk. (2002) adalah tidak valid dan

tidak sesuai dengan Proposisi 5.4.1 yang merupakan dasar penurunan teorema

tersebut.

§ Kasus 1

Pada saat ada satu atau lebih parameter pada 10Φ yang bernilai 1, dan

semua parameter pada 11Φ bernilai 0. Misalnya untuk kasus produksi

minyak bulanan di tiga lokasi diperoleh model GSTAR(11) sebagai berikut .

+

−−−

+

=

)()()(

)1()1()1(

00

0

000000000

100010001

)()()(

3

2

1

3

2

1

3231

2321

1312

3

2

1

tetete

tztztz

wwwwww

tztztz

. (5.4.6)

Berdasarkan Teorema 5.4.1 yang diperoleh oleh Borovkova dkk., model ini

termasuk dalam proses yang stasioner.

Hal ini kontradiktif dengan kondisi stasioner pada model VAR(1) berdasarkan

Proposisi 5.4.1, karena pada model (5.4.6) ini diperoleh nilai eigen yang

semuanya bernilai 1 yang berarti tidak memenuhi syarat kondisi stasioner, yaitu

didalam unit lingkaran atau 1|| <λ .


114

§ Kasus 2.

Pada saat ada satu atau lebih parameter 0iφ dan 1iφ yang hasil

penjumlahannya bernilai lebih dari 1. Sebagai contoh, pada kasus produksi

minyak bulanan di tiga lokasi yang berada dalam satu group (jarak yang sama),

sehingga digunakan bobot seragam, diperoleh model GSTAR(11) sebagai

berikut

+

−−−

+

=

)()()(

)1()1()1(

05,05,05,005,05,05,00

8,000

06,00004,0

3,00005,00003,0

)()()(

3

2

1

3

2

1

3

2

1

tetete

tztztz

tztztz

.

(5.4.7)

Model ini berdasarkan Teorema 1 merupakan proses yang tidak stasioner,

karena pada lokasi 2 dan 3 didapatkan :

1,1|6,05,0||| 2120 =+=+ φφ dan

1,1|8,03,0||| 3130 =+=+ φφ .

Hasil ini tidak memenuhi kondisi stasioner model GSTAR(11) berdasarkan

Teorema 5.4.1 yang mensyaratkan 1|| 10 ≤+ ii φφ .

Kesimpulan ini juga merupakan kesimpulan yang kontradiktif dengan hasil

kondisi stasioneritas dengan representasi VAR(1), dimana secara matematis

model GSTAR(11) ini dapat pula dituliskan dalam bentuk

+

−−−

=

)()()(

)1()1()1(

3,04,04,03,05,03,02,02,03,0

)()()(

3

2

1

3

2

1

3

2

1

tetete

tztztz

tztztz

. (5.4.8)

Dengan menggunakan operasi matrik, diperoleh nilai-nilai eigen dari matrik

parameter tersebut, yaitu 964,01 =λ , 143,02 =λ dan 007,03 −=λ yang meme-

nuhi kondisi stasioneritas berdasarkan Proposisi 5.4.1. Dengan demikian,

dalam representasi VAR(1), model ini merupakan proses yang stasioner.


115

Berdasarkan hasil pada dua contoh kasus di atas dapat dijelaskan bahwa

Teorema 5.4.1 yang dikemukakan oleh Borovkova dkk. (2002) adalah tidak

benar. Kesalahan ini diduga karena pada proses penurunan untuk mendapatkan

Teorema 5.4.1 terjadi kesalahan pada eliminasi bobot-bobot parameter lokasi

atau ijw . Oleh karena itu, pengujian kondisi stasioneritas parameter model

GSTAR(11) secara matematik adalah benar jika menggunakan nilai-nilai eigen

(dari hasil representasi VAR(1)) seperti pada Proposisi 5.4.1. Hasil dari kajian

koreksi teorema tentang stasioneritas model GSTAR(11) ini telah dipublikasikan

dan secara lengkap dapat dilihat pada Suhartono dan Subanar (2007).

5.4.2. Evaluasi Penentuan Bobot Lokasi (Spasial) yang Optimal pada

Model GSTAR

Pemilihan atau penentuan bobot lokasi merupakan salah satu perma-

salahan utama pada pemodelan GSTAR. Beberapa cara penentuan bobot lokasi

yang telah banyak digunakan dalam aplikasi model GSTAR adalah (lihat

Borovkova dkk., 2002; Ruchjana, 2002)

(i). bobot Seragam (Uniform), yaitu iij nw 1= , dengan =in banyaknya lokasi

yang berdekatan dengan lokasi i ,

(ii). bobot Biner (Binary), yaitu 0=ijw atau 1, tergantung pada suatu batasan

tertentu,

(iii). bobot Inverse Jarak, dan

(iv). bobot berdasarkan pada semi-variogram atau kovariogram dari variabel

antar lokasi. Cara ini memungkinkan suatu bobot yang bertanda negatif.

Suhartono dan Subanar (2006b) serta Suhartono dan Atok (2006) telah

melakukan kajian simulasi untuk mengevaluasi kelemahan dari metode penen-

tuan bobot lokasi tersebut, khususnya pada bobot seragam. Hasil kajian

menunjukkan bahwa penentuan bobot lokasi dengan bobot seragam mem-

berikan hasil yang tidak valid pada kasus dimana besar dan tanda dari koefisien

hubungan antar lokasi adalah berbeda nilai dengan tanda sama, dan pada kasus

berbeda nilai dan berbeda tanda. Selanjutnya, Suhartono dan Subanar (2006b)


116

memperkenalkan suatu metode penentuan bobot baru yang dapat

menyelesaikan keterbatasan tersebut, yaitu dengan menggunakan hasil

normalisasi korelasi silang antar lokasi pada lag waktu yang bersesuaian.

Secara umum korelasi silang antar dua variabel atau antara lokasi ke-i

dan ke-j pada lag waktu ke-k, )],(),([Kor ktZtZ ji − didefinisikan sebagai (lihat

Box dkk., 1994; Wei, 1990)

,

)()(

ji

ijij

kk

σσ

γρ = K,2 ,1 ,0 ±±=k (5.4.9)

dengan )(kijγ adalah kovarians silang antara kejadian di lokasi ke-i dan ke-j

pada lag waktu ke-k, iσ dan jσ adalah deviasi standar dari kejadian di lokasi

ke-i dan ke-j. Taksiran dari korelasi silang ini pada data sampel adalah

−

−

−−−=

∑∑

∑

==

+=

n

tjj

n

tii

n

ktjjii

ij

ZtZZtZ

ZktZZtZkr

1

2

1

2

1

])([])([

])(][)([)( . (5.4.10)

Bartlett dalam Wei (1990) telah menurunkan varians dan kovarians dari

besaran korelasi silang yang diperoleh dari sampel. Dibawah hipotesis bahwa

dua data deret waktu iZ dan jZ adalah tidak berkorelasi, Bartlett menunjukkan

bahwa

+

−≅ ∑

∞

=1)()(211)]([Varians

sjjiiij ss

knkr ρρ , (5.4.11)

sehingga ketika iZ dan jZ merupakan deret yang white noise diperoleh

kn

krij −≅

1)]([Varians . (5.4.12)

Untuk ukuran sampel yang besar, )( kn − dalam Persamaan (5.4.12) seringkali

digantikan dengan n . Dibawah asumsi distribusi normal, maka nilai-nilai korelasi

silang pada sampel ini dapat diuji apakah sama atau berbeda dengan nol.


117

Selanjutnya, metode penentuan bobot lokasi baru yang diperkenalkan

Suhartono dan Subanar (2006b) adalah melalui normalisasi dari besaran-

besaran korelasi silang antar lokasi pada waktu yang bersesuaian. Proses ini

secara umum menghasilkan bobot lokasi untuk model GSTAR(11) seperti berikut

, |)1(|

)1(

∑≠

=

ikik

ijij r

rw dengan ji ≠ , (5.4.13)

dan bobot ini memenuhi 1||1

=∑≠j

ijw

Penentuan bobot lokasi melalui normalisasi dari besaran korelasi silang

ini kemudian telah disempurnakan oleh Suhartono dan Subanar (2006b), yaitu

melalui normalisasi hasil inferensia statistik besaran korelasi silang antar lokasi

pada waktu yang bersesuaian tersebut. Uji hipotesis atau proses inferensia

statistik dilakukan dengan menggunakan taksiran interval, yaitu

± −−= n

tkr kndfij1)( 2;2/α . (5.4.14)

Proses ini secara umum menghasilkan bobot lokasi untuk model GSTAR(11)

seperti pada Persamaan (5.4.13) dengan hanya melibatkan korelasi silang,

)1(ijr , yang signifikan berbeda dengan nol pada proses inferensia statistik, yaitu

, |)1(|

)1(

∑≠

=

ikik

ijij r

rw dengan ji ≠ ,

dan bobot ini juga memenuhi 1||1

=∑≠j

ijw

Bobot-bobot lokasi dengan menggunakan normalisasi dari hasil inferensia

statistik terhadap korelasi silang antar lokasi pada lag waktu yang bersesuaian ini

memungkinkan semua bentuk kemungkinan hubungan antar lokasi. Dengan

demikian, tidak ada lagi batasan yang kaku tentang besarnya bobot yang

terutama tergantung dari jarak antar lokasi. Bobot ini juga memberikan

fleksibilitas pada besar dan tanda hubungan antar lokasi yang bisa berlainan

(positif dan negatif). Hasil-hasil implementasi kajian empiris ini telah dipublikasi-

kan dan secara lengkap dapat dilihat pada Suhartono dan Subanar (2006b).


118

5.4.3. Perbandingan Ketepatan Ramalan antara FFNN dan Model-model

Runtun waktu Multivariat

Bagian ini akan menjelaskan hasil-hasil kajian awal berkaitan dengan

perbandingan ketepatan ramalan antara model GSTAR, VAR, FFNN dengan

arsitektur berdasarkan GSTAR (dinotasikan dengan FFNN-GSTAR), dan FFNN

berdasarkan VAR (dinotasikan FFNN-VAR). Perbedaan utama FFNN-GSTAR

dan FFNN-VAR adalah pada arsitektur NN yang digunakan, khususnya pada

banyaknya neuron di lapis output. FFNN-GSTAR terdiri dari satu neuron di lapis

output, sedangkan FFNN-VAR mempunyai banyaknya neuron yang sama

dengan banyaknya series multivariat yang digunakan.

Kajian perbandingan ini dilakukan pada kasus real yaitu data produksi

minyak bulanan di tiga lokasi sumur pengeboran di Jawa Barat yang diperoleh

dari Ruchjana (2002). Dalam hal ini, model GSTAR dan VAR yang digunakan

adalah GSTAR(11) dan VAR(1). Bentuk arsitektur dari FFNN-GSTAR yang

digunakan dapat dilihat pada Gambar 5.7, sedangkan arsitektur FFNN-VAR

ditunjukkan seperti pada Gambar 5.8. Dari Gambar 5.7 dapat dilihat bahwa

hanya ada satu unit neuron di lapis output yang digunakan, yaitu tY yang

menyatakan suatu vektor yang terdiri dari data produksi minyak di tiga lokasi

sumur pengeboran. Secara matematis tY adalah seperti berikut,

=

t

t

t

t

3Y2Y1Y

Yˆˆˆ

ˆ .

Hal ini berbeda dengan Gambar 5.8 yang terdiri dari tiga neuron di lapis output.

Neuron 1, 2, dan 3 secara berurutan menunjukkan produksi minyak di lokasi

sumur pengeboran 1, 2 dan 3.

Data produksi minyak ini terdiri dari 60 pengamatan, yang selanjutnya

dibagi menjadi dua bagian yaitu 50 sebagai data training dan 10 untuk data

testing. Hasil-hasil perbandingan dari keempat model tersebut dapat dilihat pada

Tabel 5.10.


119

Lapis Output (Variabel Dependen) Lapis Tersembunyi (q unit neuron) Lapis Input (Lag Variabel Dependen)

Gambar 5.7. Arsitektur FFNN-GSTAR(11) dengan satu lapis tersembunyi, 6 unit input, q unit neuron di lapis tersembunyi, dan satu unit neuron di lapis output.

Keterangan beberapa notasi dari Gambar 5.7 di atas adalah sebagai berikut :

t

=

t

t

t

Y1Y Y2

Y3

)

) )

),

=

t-1*

t-1

Y1Y1 0

0

)

, 2 =

*t-1 t-1

0Y Y2

0

), 3

=

*t-1

t-1

0Y 0

Y3)

,

12 132 3w w + =

t-1 t-1*

t-1

Y YF1 0

0

) )

, 21 232 1 3w w = +

*t-1 t-1 t-1

0F Y Y

0

) ), dan

31 32

31 2w w

= +

*t-1

t-1 t-1

0F 0

Y Y) )

.

tY)

11tF −

*12 tY −

12tF −

),,( 0010 ′= qj θθθ K

),,,( 10 ′= pj γγγγ K

M

*11 tY −

*13 tY −

13tF −


120

Lapis Input Lapis Output (Lag Variabel Dependen) (Variabel Dependen)

Lapis Tersembunyi (q unit neuron)

Gambar 5.8. Arsitektur FFNN-VAR(1) dengan satu lapis tersembunyi, 3 unit input, q unit neuron di lapis tersembunyi, dan 3 unit neuron di lapis output.

Tabel 5.10. Hasil perbandingan ketepatan ramalan antara GSTAR, VAR,

FFNN-GSTAR, dan FFNN-VAR pada data produksi minyak

MSE Data Training MSE Data Testing Model Peramalan

Y1 Y2 Y3 Y1 Y2 Y3

1. GSTAR(11) 0,4967 0,6485 0,3097 0,1772 0,2554 0,0917

2. VAR(1) 0,4982 0,6334 0,4017 0,2070 0,2580 0,0972

3. FFNN-GSTAR(11) - 1 neuron - 2 neuron - 3 neuron - 4 neuron - 5 neuron

0,4870 0,3762 0,3328 0,2710 0,1983

0,6510 0,5406 0,4471 0,3606 0,3247

0,2470 0,2261 0,1742 0,1804 0,1381

0,1794 0,2505 0,5052 0,1431 0,2711

0,2398 0,3140 0,3353 0,3481 0,6272

0,0633 0,0421 0,5013 0,0355 0,0790

4. FFNN-VAR(1) - 1 neuron - 2 neuron - 3 neuron - 4 neuron - 5 neuron

0,7104 0,6169 0,4556 0,4852 0,3947

0,9664 0,5964 0,4353 0,2123 0,2210

0,4001 0,2188 0,2081 0,2651 0,1501

0,2782 0,3997 0,1780

0,1399 0,3298

0,7887 0,7973 0,6184 0,2583 0,7312

0,0436 0,0358 0,0463 0,0736 0,0878

2tY)

11tY −

12tY −

13tY −

1tY)

3tY)

),,( 0010 ′= qj θθθ K ),,,( 10 ′= pj γγγγ K

M


121

Berdasarkan hasil-hasil pada Tabel 5.10 dapat dijelaskan bahwa secara

umum FFNN-GSTAR(11) dan FFNN-VAR(1) memberikan hasil ramalan produksi

minyak yang lebih baik dibanding model GSTAR(11) dan VAR(1). Hal ini dapat

dilihat pada hasil ramalan FFNN-GSTAR(11) dan FFNN-VAR(1) dengan empat

neuron di lapis tersembunyi. Hasil ini memberikan peluang yang besar untuk

dilakukan kajian lebih lanjut berkaitan dengan FFNN untuk peramalan runtun

waktu multivariat, baik yang dikembangkan dari model GSTAR atau VAR.

- 122 -

BAB VI KESIMPULAN DAN MASALAH TERBUKA

Pada bab ini akan diberikan kesimpulan dari penelitian berdasarkan pada

pembahasan dalam Bab III, IV, dan V. Pada akhirnya, diberikan pula beberapa

masalah terbuka yang berkaitan dengan peramalan runtun waktu dengan meng-

gunakan FFNN, yang mencakup dua kasus utama runtun waktu yaitu kasus yang

univariat dan multivariat.

6.1 Kesimpulan

Bentuk umum dari FFNN dengan satu lapis tersembunyi dan satu unit

neuron di lapis output yang digunakan untuk peramalan runtun waktu univariat

secara matematis adalah

++= ∑∑

==

p

i

ohjki

hji

q

j

hj

oj

ok bbxwfwfy

1)(

1)( ])([ˆ . (6.1.1)

Estimasi parameter (bobot) dari model ini dilakukan dengan menerapkan

algoritma backpropagation, yaitu terdiri dari dua tahap utama. Pertama adalah

penentuan parameter pada lapis output melalui

hkj

n

k

oko

ja

wQ

)(1

)()(

∑=

−=∂

∂δ

w , dan ∑=

−=∂

∂ n

k

okob

Q1

)()(

δw , (6.1.2)

dengan ( )∑ =′−= q

lh

klol

okk

ok awfyy )()()()( ]ˆ[δ . Kedua adalah penentuan parameter

pada lapis tersembunyi, yaitu

)(1

)()(

kin

k

hkjh

jix

wQ

∑=

−=∂

∂δ

w , dan ∑=

−=∂

∂ n

k

hkjh

jbQ

1)(

)(δ

w , (6.1.3)

dengan )]([ )()()(h

kjhj

oj

ok

hkj nfw ′= δδ .

Estimasi parameter yang juga dikenal dengan pembelajaran network

melalui backpropagation dilakukan dengan tujuan menemukan suatu

penyelesaian *w pada permasalahan optimisasi )(minarg wQWw∈ , yaitu

Bab VI. Kesimpulan dan Masalah Terbuka

123


−==∈

, (6.1.4)

dengan *w adalah indeks dari parameter network yang optimal. Dengan

memberikan beberapa persyaratan, suatu estimator backpropagation

)~(~~~1 nnnnnn fYf −′∇+= − ηww , K,2,1=n . (6.1.5)

dengan 0~w adalah sembarang, dapat ditunjukkan bahwa salah satu

*~ Ww →n 0))((: =∇= ww nqE dengan probabilitas 1 atau ∞→nw~ dengan

probabilitas 1.

Melalui beberapa persyaratan, sifat asimtotis estimator telah terbukti

mengikuti distribusi normal multivariat asimtotis, yaitu

)(N)ˆ( ** C0ww ,n dn →− , (6.1.6)

dengan 11* ∗−∗∗−= ABAC , )),(( *2* wA tZlE ∇≡ , )),(),(( *** ′∇∇≡ wwB tt ZlZlE .

Dengan didukung oleh beberapa corollary, proposisi dan teorema, dapat

dikontruksi uji statistik Wald dibawah sSw =∗:0H yang dapat digunakan untuk

inferensia statistik pada estimator-estimator model yaitu

21 )ˆ(ˆ)ˆ( qd

nnnn nW χ→−′−≡ − swSΓswS , (6.1.7)


Dengan didukung beberapa asumsi dan teorema, suatu uji hipotesis

bertahap melalui R2incremental telah berhasil dikonstruksi. Uji ini melalui tiga tahap

utama, yaitu Model Tereduksi (Reduced Model), Model Lengkap (Full Model),

dan penentuan uji statistik, yaitu

)(

2)(

)()(2

lincrementa

)1(

)(

FF

FR

dfR

dfdfRF

−

−= , (6.1.8)

dengan 2 2 2incremental ( ) ( )F RR R R= − , )(Rdf Rln −= adalah derajat bebas Model

Tereduksi, dan )(Fdf Fln −= adalah derajat bebas Model Lengkap.

Hasil kajian teoritis ini selanjutnya digunakan untuk mengkonstruksi dua

prosedur baru untuk pembentukan model FFNN yang diaplikasikan untuk


124

peramalan runtun waktu yang merupakan kontribusi utama dari hasil penelitian

disertasi ini. Prosedur pertama mengimpementasikan uji statistik F pada

R2incremental dalam skema forward yang dimulai dengan penentuan banyaknya unit

di lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal.

Prosedur kedua menggunakan kombinasi antara uji R2incremental dalam skema

forward untuk penentuan banyaknya unit di lapis tersembunyi dengan uji Wald

dalam skema backward untuk penentuan variabel input yang optimal. Hasil-hasil

ini dapat dipandang sebagai pengembangan dari prosedur yang diperkenalkan

oleh Kaashoek dan Van Dijk (2002).

Hasil kajian empiris berkaitan dengan aplikasi uji bertahap melalui

inferensia R2incremental dan uji Wald menunjukkan bahwa pemilihan model terbaik

melalui uji bertahap pada R2incremental dan uji Wald memberikan hasil yang sesuai

dengan yang diharapkan. Hal ini memberikan bukti, bahwa statistik uji yang

dikonstruksi bekerja dengan baik. Hasil perbandingan banyaknya running juga

menunjukkan bahwa dua prosedur baru yang diperkenalkan relatif lebih efisien

dibanding prosedur Kaashoek dan Van Dijk, yaitu jumlah running yang lebih

sedikit.

Pada kajian tentang efek pemrosesan awal data, khususnya pada data

runtun waktu yang mengandung tren dan musiman, telah menghasilkan suatu

pendekatan model baru kombinasi antara metode dekomposisi dan FFNN.

Evaluasi perbandingan ketepatan ramalan menunjukkan bahwa kombinasi

metode dekomposisi sebagai pemrosesan awal data dan FFNN memberikan

hasil ramalan dengan ketepatan paling tinggi dibanding model Winter’s, ARIMA,

FFNN dengan cara pemrosesan awal data yang lain. Kajian empiris tentang

perbandingan antara model FFNN dengan model-model runtun waktu univariat

yang klasik menunjukkan bahwa model FFNN dengan cara pemrosesan awal

data yang tepat cenderung memberikan hasil yang lebih baik jika dibandingkan

dengan model-model runtun waktu klasik.

Sebagai tambahan, hasil kajian tentang model GSTAR dikaitkan dengan

aplikasi FFNN untuk peramalan runtun waktu multivariat, memberikan temuan

baru berkaitan dengan model GSTAR, yaitu diperolehnya satu metode untuk


125

penentuan bobot lokasi yang optimal pada model GSTAR(11). Metode baru ini

dikembangkan dari besaran statistik korelasi silang, dan telah terbukti lebih baik

dibanding bobot-bobot lain yang telah dikembangkan oleh peneliti-peneliti

sebelumnya. Selain itu, hasil kajian teoritis berkaitan dengan stasioneritas

parameter model GSTAR berhasil menunjukkan bahwa ada kesalahan berkaitan

dengan teorema stasioneritas parameter model GSTAR(11) yang dikemukakan

oleh Borovkova dkk. (2002). Pada akhirnya, aplikasi FFNN untuk peramalan

runtun waktu multivariat yang dikembangkan dari model GSTAR dan VAR pada

data produksi minyak, terbukti memberikan hasil ramalan yang lebih baik

dibanding model GSTAR dan VAR.

6.2 Masalah Terbuka

FFNN dalam kerangka pemodelan statistik dapat dipandang sebagai

model nonlinear yang fleksibel sebagai alat analisis data untuk peramalan runtun

waktu yang mempunyai peluang yang besar untuk dikembangkan dan dikaji lebih

lanjut, baik pada kasus univariat dan terlebih lagi pada kasus yang multivariat.

Berdasarkan pembahasan pada penelitian ini diperoleh beberapa permasalahan

terbuka yang perlu untuk dilakukan penelitian lebih lanjut, yaitu :

1. Pengembangan uji nonlinearitas pada kasus runtun waktu multivariat,

termasuk data spasial runtun waktu. Uji ini akan memberikan argumen yang

fundamental terhadap kelayakan pemakaian suatu model nonlinear,

khususnya NN pada kasus runtun waktu multivariat ataupun spasial runtun

waktu.

2. Pengembangan prosedur pembentukan model pada NN dengan meng-

kombinasikan R2incremental dan uji Wald untuk memutus koneksi input ke unit

neuron di lapis tersembunyi ataupun koneksi dari neuron di lapis ter-

sembunyi ke neuron di lapis output. Kajian ini lebih menitikberatkan pada

aspek komputasi dan akan memberikan arah baru tentang arsitektur NN.

3. Pengembangan NN untuk peramalan runtun waktu pada data yang

nonmetrik (skala nominal atau ordinal) dan/atau data metrik yang tidak


126

kontinu dan tidak berdistribusi Normal. Hal utama yang mendasari

pengembangan ini adalah suatu kenyataan bahwa permasalahan real pada

peramalan runtun waktu biasanya juga melibatkan data-data yang bersifat

kualitatif.

4. Pengembangan model-model hybrid, yaitu kombinasi dari NN dengan

beberapa model atau metode analisis data lainnya, misalnya Wavelet NN

ataupun Fuzzy NN, untuk peramalan runtun waktu univariat dan multivariat.

Hasil kajian tentang efek pemrosesan data awal pada penelitian disertasi ini

merupakan dasar utama pengembangan suatu model hybrid yang

mengkombinasikan NN dengan metode yang lainnya.

127

RINGKASAN


oleh

Suhartono

1. PENDAHULUAN

Pemodelan yang digunakan untuk menjelaskan hubungan nonlinear antar

variabel dan beberapa prosedur pengujian untuk mendeteksi adanya keterkaitan

nonlinear telah mengalami perkembangan yang sangat pesat pada beberapa

dekade terakhir ini. Sebagai overview hal ini dapat dilihat antara lain pada tulisan

Granger dan Terasvirta (1993). Perkembangan yang pesat ini juga terjadi dalam

bidang pemodelan statistik, khususnya model-model untuk runtun waktu dan

ekonometrika. Seiring dengan perkembangan komputasi dan meningkatnya

kekuatan komputasi, model nonparametrik yang tidak memerlukan asumsi

bentuk hubungan fungsional antar variabel telah menjadi lebih mudah untuk

diaplikasikan.

Model Neural Networks (NN) merupakan salah satu contoh model nonlinear

yang mempunyai bentuk fungsional yang fleksibel dan mengandung beberapa

parameter yang tidak dapat diinterpretasikan seperti pada model parametrik.

Penggunaan model NN dalam berbagai bidang terapan secara umum didasari

motivasi hasil matematika yang menyatakan bahwa di bawah syarat yang tidak

terlalu ketat, suatu model NN yang relatif sederhana dapat digunakan untuk

pendekatan semua fungsi Borel yang dapat diukur pada sebarang derajat

akurasi; sebagai contoh hal ini dapat dilihat pada Cybenko (1989), Funahashi

(1989), Hornik dkk. (1989, 1990), dan White (1990).

Pada saat ini banyak penelitian dilakukan secara luas dengan motivasi

adanya kemungkinan untuk menggunakan model NN sebagai suatu alat untuk

menyelesaikan berbagai masalah terapan, antara lain peramalan runtun waktu,

Ringkasan 128

pattern recognition, signal processing, dan proses kontrol. Sarle (1994)

menyatakan bahwa ada tiga penggunaan utama dari NN, yaitu sebagai suatu

model dari sistem syaraf biologi dan kecerdasan, sebagai prosesor signal real-

time yang adaptif atau pengontrol yang diimplementasikan dalam hardware untuk

suatu terapan seperti robot, dan sebagai metode analisis data.

Model Feed Forward Neural Networks (FFNN) adalah salah satu bentuk

model NN yang dapat dipandang sebagai suatu kelompok dari model yang

sangat fleksibel yang dapat digunakan untuk berbagai aplikasi. Beberapa

referensi berkaitan dengan konsep dan bentuk dari model FFNN secara umum

dapat ditemukan di Bishop (1995), Ripley (1996) dan Fine (1999). Secara

statistik, model FFNN merupakan suatu bagian dari kelompok pemodelan yaitu

model nonlinear regresi dan model diskriminan. Referensi yang lengkap

berkaitan dengan perbandingan antara beberapa model NN dengan model-

model statistik yang klasik dan modern dapat dilihat pada Cheng dan Titterington

(1994), Kuan dan White (1994), Ripley (1993, 1994), Sarle (1994), dan beberapa

artikel di Cherkassky dkk. (1994).

Dalam penerapannya, FFNN mengandung sejumlah parameter (weight)

yang terbatas. Bagaimana mendapatkan model FFNN yang sesuai, yaitu

bagaimana menentukan kombinasi yang tepat antara banyaknya variabel input

dan banyaknya unit pada lapis tersembunyi (yang berimplikasi pada banyaknya

parameter yang optimal), merupakan topik sentral dalam beberapa literatur NN

yang telah banyak dibahas pada banyak artikel dan banyak buku seperti pada

Bishop (1995), Ripley (1996), Fine (1999), Haykin (1999), atau pada Reed dan

Marks II (1999).

Secara umum ada dua kelompok teknik atau prosedur yang biasanya

digunakan untuk mendapatkan model FFNN terbaik (arsitektur optimal), yaitu

prosedur yang “general-to-specific” atau “top-down” yaitu suatu prosedur yang

dimulai dari model yang besar (komplek) dan kemudian menerapkan suatu

algoritma untuk mereduksi banyaknya parameter (banyaknya unit pada lapis

tersembunyi dan banyaknya variabel input) dengan menggunakan aturan

pemberhentian iterasi tertentu, dan prosedur yang “specific-to-general” atau

Ringkasan 129

“bottom-up” yaitu suatu prosedur yang justru dimulai dari model yang sederhana.

Dalam beberapa literatur NN prosedur pertama lebih dikenal dengan istilah

"pruning" (Reed, 1993; Reed dan Marks II, 1999), sedangkan dalam kerangka

pemodelan statistik dapat dipandang sebagai metode backward. Prosedur kedua

lebih dikenal dengan istilah “constructive learning” dan salah satu yang telah

banyak dikenal adalah cascade correlation (Fahlman dan Lebiere, 1990;

Littmann dan Ritter, 1996; Prechelt, 1997), yang dapat dipandang sebagai suatu

metode forward dalam pemodelan statistik.

Kaashoek dan Van Dijk (2001) memperkenalkan suatu prosedur “pruning”

dengan mengimplementasikan tiga hal, yaitu besaran kontribusi penambahan

(R2incremental), analisis komponen utama, dan analisis secara grafik, untuk

mendapatkan banyaknya unit dalam lapis tersembunyi dan banyaknya variabel

input yang optimal dari suatu model FFNN. Sedangkan Swanson dan White

(1995, 1997a, 1997b) menerapkan kriteria pemilihan model SBIC atau Schwarz

Bayesian Information Criteria pada prosedur “bottom-up” untuk penambahan

banyaknya unit lapis tersembunyi dan banyaknya input sampai diperoleh model

FFNN yang optimal.

Pada perkembangannya, prosedur statistika inferensia juga diterapkan

dalam penentuan model FFNN yang terbaik. Dalam hal ini konsep uji hipotesa,

distribusi parameter dan penggunaan kriteria kesesuaian model diaplikasikan

untuk mendapatkan model yang optimal dari FFNN. Terasvirta dan Lin (1993)

adalah kelompok peneliti pertama yang mengaplikasikan prosedur statistika

inferensia untuk mendapatkan banyaknya unit lapis tersembunyi yang optimal

pada model FFNN dengan satu lapis tersembunyi. Beberapa artikel terakhir

tentang pembentukan model FFNN dengan penggunaan statistika inferensia

dapat dilihat pada Anders dan Korn (1999), dan Medeiros dkk. (2002).

Peramalan data runtun waktu adalah salah satu bidang pemodelan statistik

yang sejak awal telah banyak digunakan untuk aplikasi model NN. Lapedes dan

Farber (1987) merupakan salah satu dari beberapa peneliti pertama yang

menggunakan NN untuk peramalan data runtun waktu. Selanjutnya, banyak

penelitian dilakukan berkaitan dengan prediksi pada data real runtun waktu; hal

Ringkasan 130

ini antara lain dapat dilihat pada de Groot dan Wurtz (1991), Weigend dan

Gershenfeld (1993), Swanson dan White (1995), Weigend (1996), Faraway dan

Chatfield (1998), Lisi dan Schiavo (1999), Motiwalla dan Wahab (2000), Yao dan

Tan (2000), Leung dkk. (2000), serta pada Kaashoek dan Van Dijk (2001, 2002).

Secara umum dari beberapa penelitian yang ada tersebut, fokus utama yang

dibahas adalah bagaimana mendapatkan model NN yang sesuai untuk suatu

data runtun waktu. Isu yang sampai sekarang masih merupakan pertanyaan

terbuka dan banyak peneliti lakukan dalam penerapan model NN untuk

pemodelan runtun waktu adalah dalam rangka menjawab beberapa pertanyaan

berikut :

(1). Bagaimana prosedur identifikasi yang tepat untuk menentukan variabel

input awal sebagai kandidat yang sesuai?

(2). Bagaimana cara menentukan variabel input yang tepat?

(3). Bagaimana cara menentukan banyaknya unit yang tepat pada lapis

tersembunyi?

(4). Apa kriteria (statistik) yang paling tepat untuk mengevaluasi kesesuaian

suatu model NN?

(5). Apa bentuk pemrosesan awal data yang tepat pada NN?

Ada beberapa prosedur pembentukan model NN untuk pemodelan runtun

waktu yang telah diperkenalkan oleh beberapa peneliti terdahulu. Namun,

sampai saat ini belum ada satu prosedur yang diterima sebagai suatu prosedur

standar oleh kalangan peneliti NN. Dengan demikian, salah satu permasalahan

utama dalam pembentukan model NN dalam kerangka pemodelan statistik,

khususnya model runtun waktu adalah masih belum adanya suatu prosedur

pembentukan model yang diterima secara standar untuk mendapatkan model NN

yang terbaik pada suatu data runtun waktu, yaitu mulai tahap identifikasi,

estimasi parameter dan uji hipotesis yang berkaitan dengan signifikansi

parameter, serta tahap cek diagnosa untuk memvalidasi kesesuaian model

melalui suatu kriteria (uji statistik) tertentu.

Untuk itu dalam penelitian ini fokus permasalahan yang akan diselidiki oleh

peneliti adalah dalam rangka mendapatkan suatu prosedur pembentukan model

Ringkasan 131

NN yang pada akhirnya diharapkan dapat diterima sebagai suatu prosedur yang

standar. Beberapa permasalahan utama yang akan diselidiki untuk mendukung

pembentukan prosedur standar tersebut adalah sebagai berikut :

(1). Pengembangan dan pengkajian lanjut tentang kriteria (statistik uji) yang

tepat untuk memvalidasi kesesuaian suatu model FFNN untuk pemodelan

runtun waktu.

(2). Pengkajian dan pengembangan lebih lanjut tentang prosedur pem-

bentukan model FFNN yang optimal (kombinasi yang tepat antara

banyaknya input dan banyaknya unit di lapis tersembunyi) dengan

mengimplementasikan sifat-sifat estimator (weight) dan kriteria statistik

yang akan diperoleh untuk pemodelan runtun waktu.

2. ANALISIS RUNTUN WAKTU

Secara umum, analisis runtun waktu menurut Chatfield (2001) mempunyai

beberapa tujuan, yaitu peramalan, pemodelan dan kontrol. Peramalan berkaitan

dengan problem pembentukan model dan metode yang dapat digunakan untuk

menghasilkan suatu ramalan yang akurat. Pemodelan bertujuan mendapatkan

suatu model statistik yang sesuai dalam merepresentasikan perilaku jangka

panjang suatu data runtun waktu. Perbedaan pemodelan dengan peramalan

adalah peramalan lebih cenderung pada suatu model yang “black-box” untuk

mendapatkan ramalan, sedangkan pada pemodelan cenderung pada model

yang dapat diinterpretasikan untuk menjelaskan apa yang sedang terjadi

berkaitan dengan hubungan antar variabel pada suatu data runtun waktu.

Sedang tujuan untuk kontrol banyak digunakan dalam bidang teknik, khususnya

signal processing.

Pemodelan statistik untuk analisis runtun waktu jika dirunut kebelakang,

diawali oleh Yule (1927) yang memperkenalkan model linear autoregresi (AR)

untuk meramalkan bilangan tahunan sunspot. Sejak itu publikasi berkaitan

dengan analisis runtun waktu berkembang dengan pesat. Sampai tahun 1980,

Ringkasan 132

sebagian besar penelitian terfokus pada model runtun waktu linear, khususnya

kelas model linear Autoregressive Integrated Moving Average (ARIMA).

Brockwell dan Davis (1991) mendefinisikan bahwa suatu proses , tY

,2,1,0 K±±∈t disebut mengikuti proses atau model ARMA(p,q) jika tY

adalah stasioner dan jika untuk setiap t ,

qtqttptptt YYY −−−− +++=−−− εθεθεφφ LL 1111 , (2.1)

dengan ),0(WN~ 2σε t . tY disebut suatu proses ARMA(p,q) dengan mean

µ jika µ−tY adalah suatu proses ARMA(p,q). Persamaan (2.1) dapat ditulis

secara simbolik dalam bentuk yang lebih compact, yaitu

tt BYB εθφ )()( = , (2.2)

dengan φ dan θ adalah polinomial derajat p dan q, yaitu

pp zzz φφφ −−−= L11)( (2.3)

dan q

q zzz θθθ +++= L11)( (2.4)

dan B adalah suatu operator mundur (backward shift operator) yang didefinisikan

dengan

jttj YYB −= , K,2,1,0 ±±=j . (2.5)

Box dan Jenkins pada tahun 1976 mengembangkan suatu prosedur yang

lengkap untuk metodologi model ARIMA yang sampai sekarang digunakan

sebagai prosedur standar dalam pembentukan model runtun waktu linear.

Beberapa literatur yang banyak membahas model ARIMA ini dapat dilihat pada

Cryer (1986), Wei (1990) dan Box dkk. (1994). Selain itu, sifat-sifat yang

berkaitan dengan teori statistik untuk model ARIMA telah banyak dianalisis dan

dikembangkan oleh beberapa peneliti, antara lain Brockwell dan Davis (1991).

Dalam perkembangan analisis runtun waktu, telah banyak diketahui bahwa

pada banyak fenomena yang menarik dan sederhana seringkali merupakan

fenomena yang nonlinear, yaitu hubungan antara kejadian di masa lalu dan saat

Ringkasan 133

ini adalah nonlinear. Dengan demikian, kelompok pemodelan runtun waktu yang

linear tidaklah cukup dan sesuai untuk kasus-kasus tersebut, dan sebagai

konsekuensinya, model-model runtun waktu yang nonlinear telah menjadi fokus

perhatian utama peneliti runtun waktu pada beberapa tahun terakhir ini.

Beberapa bentuk model nonlinear telah dikembangkan dan diaplikasikan pada

beberapa kasus runtun waktu, dan sebagai overview atau diskusi lanjut hal ini

dapat ditemukan antara lain di Tong (1990), Priestley (1991), Lee dkk. (1993),

serta Granger dan Terasvirta (1993).

3. FEEDFORWARD NEURAL NETWORKS

Multi Layer Perceptrons (MLP) yang juga dikenal dengan feedforward

atau backpropagation networks atau FFNN adalah bentuk arsitektur NN yang

secara umum paling banyak digunakan dalam aplikasi di bidang teknik atau

rekayasa. Biasanya, aplikasi NN untuk pemodelan runtun waktu adalah

berdasarkan pada arsitektur MLP atau FFNN.

MLP dapat dipandang sebagai suatu kelas yang fleksibel dari fungsi-

fungsi yang nonlinear. Secara umum, model ini bekerja dengan menerima suatu

vektor dari input-input X dan kemudian menghitung suatu respon atau output

)(XY dengan memproses (propagating) X melalui elemen-elemen proses yang

saling terkait. Elemen-elemen proses tersusun dalam beberapa lapis (layer) dan

data, X , mengalir dari satu lapis ke lapis berikutnya secara berurutan. Dalam

tiap-tiap lapis, input-input ditransformasi kedalam lapis secara nonlinear oleh

elemen-elemen proses dan kemudian diproses maju ke lapis berikutnya.

Akhirnya, nilai-nilai output )(XY , yang dapat berupa nilai-nilai skalar atau vektor,

dihitung pada lapis output.

Gambar 3.1 adalah suatu contoh dari bentuk khusus MLP dengan satu

lapis tersembunyi yang lebih dikenal dengan FFNN dengan satu lapis

tersembunyi. Dalam contoh ini, FFNN terdiri dari tiga input (yaitu 1X , 2X dan

3X ), empat unit neuron di lapis tersembunyi dengan fungsi aktifasi ψ , dan satu

unit output dengan fungsi aktifasi linear.

Ringkasan 134

Gambar 3.1. Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input, empat unit neuron di lapis tersembunyi, dan satu unit output dengan fungsi aktifasi linear pada lapis output.

Dalam arsitektur ini, nilai-nilai respon atau output )(XY dihitung dengan

∑ ∑= =

++=H

j

I

iijijjY

1 100 )()( XX γγψββ (3.1)

dengan ),...,,,...,,( 1010 HIH γγβββ adalah besaran-besaran bobot atau para-

meter pada MLP. Bentuk nonlinear fungsi )(XY terjadi melalui suatu fungsi

yang disebut fungsi aktifasi ψ , yang biasanya fungsi yang halus atau smooth

seperti fungsi logistik sigmoid

1))exp(1()( −−+= ZZψ . (3.2)

Pemilihan bentuk MLP dengan satu lapis tersembunyi dan fungsi linear pada

lapis output (tidak ada fungsi aktifasi nonlinear pada lapis output) ini dimotivasi

dari fakta yang menyatakan bahwa bentuk ini dapat memberikan pendekatan

sebarang yang akurat pada sebarang fungsi dalam berbagai ruang fungsi norm

jika dimensi dari ruang bobot adalah cukup besar (Cybenko, 1989; Funahashi,

1989; Hornik dkk., 1989).

Ringkasan 135

Aplikasi model NN untuk peramalan runtun waktu memerlukan perlakuan

dari suatu proses yang dinamis. MLP dapat mengakomodasi perilaku dinamis

tersebut dengan memasukkan lag (kejadian sebelumnya) dari variabel respon

atau target, itY − , dalam himpunan dari input. Hal ini dapat diperoleh dengan

mengganti ),...,( 1 ′= −− ptt YYX dalam persamaan (3.1). Bentuk ini selanjutnya

dikenal dengan Model Autoregressive Neural Network (ARNN) dan secara grafik

untuk 3 lag sebagai input dapat dilihat seperti Gambar 3.2. Secara umum bentuk

arsitektur dari model ini adalah sama dengan model ARIMA(p,0,0), dimana

bentuk perbedaannya adalah bentuk fungsi yang mentransfer kejadian-kejadian

masa lalu ),...,( 1 ′−− ptt YY ke kejadian masa sekarang tY adalah nonlinear,

sedangkan pada model ARIMA(p,0,0) adalah fungsi linear. Sehingga seringkali

model AR-NN ini disebut juga dengan model autoregresi yang nonlinear

(Faraway dan Chatfield, 1998).

Gambar 3.2. Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag variabel dependen sebagai input ( 321 ,, −−− ttt YYY ), empat unit neuron di lapis tersembunyi, dan satu unit output ( tY ) dengan fungsi aktifasi linear pada output lapis.

Ringkasan 136

3.1. Algoritma Backpropagation

Ripley (1996) menyatakan bahwa keberadaan suatu pendekatan dari suatu

fungsi adalah tidak ada gunanya jika tidak diketahui cara untuk menemukan

pendekatan tersebut. Hal inilah yang mendorong banyaknya penelitian tentang

neural network selama bertahun-tahun. Ide dasar tentang pendekatan dengan

NN diawali oleh pembelajaran Rumelhart–McClelland (1986) yaitu untuk

melakukan fitting terhadap parameter-parameter fungsi dengan metode least

squares. Misalkan kita mempunyai beberapa pasang sampel input dan target

),( )()( kk yx , dan output dari network adalah ),(ˆ wxy f= . Maka, vektor parameter

w dipilih dengan cara meminimumkan

∑=

−=n

kkk xfyQ

1

2)()( )];([)( ww (3.3)

seperti yang dilakukan dalam regresi nonlinear (Bates dan Watts, 1998; Seber

dan Wild, 1989).

Gradient descent merupakan salah satu dari kelompok metode optimisasi

yang paling tua. Metode ini berdasarkan pada suatu pendekatan linear dari

fungsi kesalahan (error) yaitu

)()()( wwwww QQQ T ′∆+≈∆+ . (3.4)

Bobot-bobot diupdate melalui

0 ),( >′−=∆ ηη ww Q , (3.5)

dengan η adalah suatu koefisien pembelajaran (learning rate).

Suhartono dkk. (2005d) telah menurunkan suatu corollary yang merupakan

modifikasi algoritma backpropagation dengan metode gradient descent dari

Moller (1997). Corollary ini adalah khusus untuk mendapatkan bobot-bobot pada

FFNN yang digunakan untuk peramalan runtun waktu univariat seperti pada

Gambar 3.2.

Ringkasan 137

3.2. Sifat-sifat Asimtotis Estimator FFNN

Sifat-sifat asimtotis dari estimator backpropagation dalam FFNN dengan

satu lapis tersembunyi telah banyak dibahas secara detail oleh White (1989a,

1989b). Pada bagian sebelumnya telah dijelaskan bahwa tujuan utama dari

pembelajaran network melalui backpropagatian adalah menemukan suatu

penyelesaian *w pada suatu permasalahan optimisasi )(minarg wQWw∈ yaitu


−==∈

, (3.6)

dengan *w adalah indeks dari bobot network yang optimal.

Dengan penalti kuadrat error, pembelajaran pada network harus sampai

pada *w , yang menyelesaikan

( )2/)]|(([]2/)),([(min 22 XYEYEXfYEWw

−=−∈

w

))2/)],()|(([ 2wXfXYEE −+ . (3.7)

Menemukan *w merupakan permasalahan yang secara tepat sama dengan

mendapatkan parameter-parameter dari suatu pendekatan least squares yang

optimal untuk )|( XYE , ekspektasi bersyarat dari Y diberikan X .

Secara khusus, jika diberikan pasangan input dan target ),( tt XY dengan

nt ,,2,1 K= , yang diambil secara random dari suatu populasi tertentu, maka nw

adalah estimator least squares yang nonlinear pada permasalahan optimisasi

∑=

−

∈−=

n

tttn

WwXfYnQ

1

21 2/)),(()(minarg ww . (3.8)

Regresi nonlinear merupakan metode yang telah dianalisis secara lengkap

dalam literatur-literatur statistik dan ekonometrika.

White (1989b) telah memberikan suatu pernyataan formal tentang syarat

cukup untuk menjamin konvergensi dari estimator backpropagation nw , seperti

yang dinyatakan dalam teorema berikut ini.

Teorema 3.1. (White, 1989b) Misalkan ),F,( PΩ adalah suatu ruang probabilitas

yang lengkap yang didefinisikan pada suatu barisan dari variabel random yang

Ringkasan 138

IID ,:( vtt ΖZ ℜ→Ω= ),2,1 K=t , ∈v ℕ ,2,1 K≡ . Misalkan ℜ→×ℜ Wl v:

adalah suatu fungsi sedemikian hingga untuk setiap w dalam W , suatu sub-

himpunan kompak dari sℜ , ∈s ℕ, ),( wl ⋅ adalah ukuran- vΒ (dengan vΒ adalah

suatu σ -field Borel dengan himpunan-himpunan terbuka dari vℜ ), dan untuk

setiap z dalam vℜ , ),( ⋅zl adalah kontinyu pada W . Anggap selanjutnya bahwa

ada +ℜ→ℜvd : sedemikian hingga untuk semua w dalam W , )(|),(| zdzl ≤w

dan ∞<))(( tZdE (yaitu, l terdominasi pada W oleh suatu fungsi yang dapat

diintegralkan).

Maka untuk setiap K,2,1=n ada suatu penyelesaian nw untuk per-

masalahan ∑ =−


1 ),()(ˆmin wZw dan ,..ˆ * Psan −→ Ww dengan

)()(: *** wwWwW QQ ≤∈≡ untuk semua Ww ∈ , )),(()( wZw tlEQ = .

3.3. Sifat Normalitas Asimtotis Estimator FFNN

Konsep formal yang tepat untuk mempelajari distribusi limit (asimtotis) dari

nw adalah konsep-konsep tentang konvergensi dalam distribusi. Distribusi

asimtotis dari nw tergantung pada sifat dasar dari *W . Secara umum *W

mungkin terdiri dari titik-titik yang terisolasi dan/atau bagian datar yang terisolasi.

Jika konvergensi ke suatu bagian datar terjadi, maka bobot-bobot taksisran nw

mempunyai suatu distribusi asimtotis yang dapat dianalisis dengan

menggunakan teori dari Phillips (1989) tentang model yang teridentifikasi secara

parsial. Distribusi-distribusi ini termasuk dalam keluarga Gaussian gabungan

asimtotis atau “limiting mixed Gaussian” (LMG) seperti yang dikenalkan oleh

Phillips. Ketika *w adalah unik secara lokal, model dikatakan teridentifikasi

secara lokal dan bobot-bobot taksiran nw yang konvergen ke *w mempunyai

distribusi normal multivariat asimtotis.

White (1989b) telah memberikan suatu kondisi yang memastikan bahwa

nw mempunyai distribusi normal multivariat asimtotis, seperti yang dinyatakan

dalam teorema berikut ini.

Ringkasan 139

Teorema 3.2. (White, 1989b) Misalkan ),F,( PΩ , tZ , W dan l adalah seperti

dalam Teorema 3.1, dan anggap bahwa Psan −→ .. ˆ *ww dengan suatu elemen

terisolasi pada *W bagian dalam (interior) untuk W .

Anggap sebagai tambahan bahwa untuk setiap z dalam vℜ , ),( ⋅zl adalah

dapat diturunkan secara kontinyu sampai orde 2 pada ∫ W ; bahwa

∞<∇′∇ )),(),(( ** ww tt ZlZlE ; bahwa setiap elemen dari l2∇ adalah

terdominasi pada W suatu fungsi yang dapat diintegralkan; dan bahwa

)),(( *2* wA tZlE ∇≡ dan )),(),(( *** ′∇∇≡ wwB tt ZlZlE matriks-matriks

nonsingular berukuran )( ss× , dengan ∇ dan 2∇ adalah notasi dari gradien

)1( ×s dan operator-operator Hessian )( ss × terhadap w .

Maka ),()ˆ( ** C0ww Ν→− dnn , dengan 11* ∗−∗∗−= ABAC . Jika

sebagai tambahan, setiap elemen dari ll ′∇∇ adalah terdominasi pada W oleh

suatu fungsi yang dapat diintegralkan, maka Psan −→ ∗ .. ˆ CC , dengan 11 ˆˆˆˆ −−= nnnn ABAC , dan

n

Zlnt nt

n∑ = ∇

= 12 )ˆ,(ˆ w

A , n

ZlZlnt ntnt

n∑ = ′∇∇

= 1 )ˆ,()ˆ,(ˆ wwB .

3.4. Testing Hipotesa untuk Parameter Model Neural Networks

Penggunaan satu tahap Nonlinear Least Squares (NLS) Newton-Raphson

dari estimator backpropagation menghasilkan suatu estimator yang ekuivalen

secara asimtotis dengan NLS. Suatu kenyataan bahwa ∗∗ − CF semidefinit positif

adalah suatu alasan untuk menyatakan bahwa tahapan ini adalah pembelajaran

konsolidasi, karena nw mempunyai presisi asimtotis yang sama atau lebih besar

daripada nw~ . Dengan demikian uji hipotesa berdasarkan nw adalah lebih

bermanfaat dari pada berdasarkan nw~ .

Karena pencapaian presisi yang lebih baik ini, maka uji hipotesis sebaiknya

dilakukan dengan menggunakan nw . Suatu uji tentang relevansi (signifikansi)

dari input yang hipotesisnya dapat dinyatakan dengan 0Sw =∗:0H melawan

0Sw ≠∗:1H , dapat dilakukan berdasarkan pada versi-versi statistik Wald,

Lagrange multiplier, dan Likelihood ratio.

Ringkasan 140

Berikut ini adalah hasil konstruksi teorema yang berkaitan dengan statistik

Wald yang digunakan untuk pengujian hipotesis pada parameter model NN.

Teorema 3.3. Misalkan kondisi-kondisi pada Teorema 3.2 di atas terpenuhi,

yaitu

(i) ),()ˆ(2/1

I0wwC Ν→− ∗−∗ dnn , dengan

'11 ABAC −∗∗−∗∗ ≡ , dan 1−∗C

adalah )1(O .

(ii) Ada suatu matriks semidifinit positif dan simetris nB sedemikian hingga ∗− BBn

ˆ 0→p . Maka ∗− CCnˆ 0→p , dengan 11 ˆˆˆˆ −−= nnnn ABAC ,

n

,Zlnt nt

n∑ = ∇

= 12 )ˆ(ˆ w

A , n

ZlZlnt ntnt

n∑ = ′∇∇

= 1 )ˆ,()ˆ,(ˆ wwB ,

Dan, misalkan kq ≤=)(rank S . Maka dibawah sH =∗Sw:0 ,

(i) ),()ˆ(2/1 I0swSΓ Ν→−− dnn n , dengan =≡ ∗ 'n SSCΓ '

'SABSA 11 −∗∗−∗ .

(ii) Suatu statistik Wald,

21 )ˆ(ˆ)ˆ( qd

nnnn nW χ→−′−≡ − swSΓswS ,


Dengan demikian, suatu uji tentang relevansi (signifikansi) dari input yang

hipotesisnya dapat dinyatakan dengan 0Sw =∗:0H melawan 0Sw ≠∗:1H ,

dapat dilakukan dengan mengaplikasikan Teorema 3.3 ini. Sebagai contoh,

statistik uji Wald dapat dihitung untuk pengujian hipotesis ini yaitu


dengan ∗C seperti yang dijelaskan sebelumnya

4. FFNN UNTUK PERAMALAN RUNTUN WAKTU

Peramalan runtun waktu merupakan salah satu bidang utama dalam

aplikasi FFNN. Dalam kasus ini, FFNN dapat dipandang sebagai suatu model

runtun waktu yang nonlinear. Jika diberikan tΙ adalah suatu himpunan informasi

Ringkasan 141

yang didefinisikan

tΙ 0,;0, ≥>= −− iXjY itjt , nt ,,2,1 K= , (4.1)

yang menyatakan semua variabel lag tY dan suatu vektor dari variabel eksogen

tX , maka proses pemodelan runtun waktu secara umum bertujuan

mendapatkan suatu pendekatan yang baik untuk )( tIf sedemikan hingga

)(]|[ ttt IfΙYE = . (4.2)

Terasvirta dkk. (1994) menjelaskan bahwa ada tiga tahapan strategi

pemodelan yang banyak dilakukan pada kelompok model runtun waktu

nonlinear. Secara ringkas tahapan tersebut adalah :

(i). Uji linearitas tY dengan menggunakan informasi tΙ

Banyak kemungkinan bentuk dari nonlinearitas, dan sampai saat ini tidak

ada satu tes yang mampu melakukan semua kemungkinan nonlinear

tersebut, sehingga beberapa tes mungkin diperlukan.

(ii). Jika linearitas ditolak, gunakan beberapa alternatif model nonlinear

parametrik dan/atau model-model nonparametrik.

Dalam hal ini, hasil uji linearitas juga mungkin memberikan petunjuk

tentang model nonlinear yang sebaiknya digunakan.

(iii). Model-model tersebut selanjutnya diestimasi dalam sampel (in-sample)

dan dibandingkan pada data validasi (out-of-sample).

Sifat-sifat dari model taksiran harus diselidiki dan divalidasi. Jika suatu

model tunggal terbaik yang dibutuhkan, maka model yang memberikan

hasil out-of-sample terbaik yang dipilih, dan kemudian lakukan estimasi

kembali pada semua data yang ada.

Bagian ini terdiri dari hasil-hasil kajian teori dan terapan tentang uji

nonlinearitas pada runtun waktu, dan kajian teori tentang prosedur pembentukan

FFNN untuk peramalan runtun waktu. Secara lengkap hasil kajian tentang uji

nonlinearitas dapat dilihat pada Suhartono dan Subanar (2004), serta Subanar

dan Suhartono (2005, 2006a).

Ringkasan 142

4.1. Inferensia Statistik dari Kontribusi Penambahan R2

Suhartono dkk. (2006a) memperkenalkan suatu prosedur baru yang

berdasarkan pada inferensia statistik dari kontribusi penambahan. Statistik uji ini

dikonstruksi seperti pada model linear yang dikenal dengan uji signifikansi

bertahap. Uji ini melalui tiga tahap utama, yaitu Model Tereduksi (Reduced

Model), Model Lengkap (Full Model), dan penentuan Uji Statistik. Berikut ini

adalah hasil konstruksi teorema berkaitan dengan uji R2incremental.

Teorema 4.2.3. Jika diberikan suatu Model Tereduksi (Reduced Model) yang

secara umum dapat ditulis dalam bentuk

)()( )ˆ,( Rt

Rntt XfY ε+= w , (4.3)

dengan Rl adalah banyaknya parameter yang diestimasi. Dan jika diberikan

suatu Model Lengkap (Full Model) yang lebih kompleks dibanding Model

Tereduksi, misalkan adalah

)()( )ˆ,( Ft

Fntt XfY ε+= w , (4.4)

dengan Fl adalah banyaknya parameter yang diestimasi, dan RF ll > . Maka uji

di bawah 0w =+∗:0H , atau uji terhadap nilai-nilai parameter (bobot) tambahan

dalam model lengkap adalah sama dengan nol, dapat dikonstruksi melalui uji F ,

yaitu

])[],[()(

)()(21

~)/(

)/()(FRF lnvllv

FF

RFFR FlnSSE

llSSESSE−=−=−

−−. (4.5)

Statistik uji F ini dapat pula dinyatakan dalam bentuk

)()(

)()()()(

/)/()(

FF

FRFR

dfSSEdfdfSSESSE

F−−

= , (4.6)

atau

)(

2)(

)()(2

lincrementa

)1(

)(

FF

FR

dfR

dfdfRF

−

−= , (4.7)

dengan 2)(

2)(

2lincrementa RF RRR −= , )(Rdf Rln −= adalah derajat bebas Reduced

Model, dan )(Fdf Fln −= adalah derajat bebas Full Model.

Ringkasan 143

4.2. Algoritma Pembentukan Model FFNN : Implementasi Uji Non-linearitas,

Inferensia Statistik R2incremental dan Uji Wald

Berdasarkan hasil-hasil pada bagian sebelumnya, maka suatu strategi

pembentukan model FFNN dapat dilakukan dengan mengimplementasikan uji

nonlinearitas, inferensia statistik kontribusi penambahan R2incremental, dan uji Wald.

Gambar 4.1 dan 4.2 adalah bagan yang menunjukkan dua prosedur (algoritma)

baru yang diperkenalkan sebagai prosedur pembentukan model FFNN untuk


Prosedur pertama pada Gambar 4.1 adalah prosedur yang fokus pada

penggunaan inferensia statistik kontribusi penambahan R2incremental dalam skema

forward, yang dimulai dengan penentuan banyaknya unit di lapis tersembunyi

yang optimal dan dilanjutkan dengan pemilihan unit input yang optimal.

Sedangkan prosedur kedua pada Gambar 4.2 merupakan prosedur yang

menggunakan kombinasi inferensia statistik kontribusi penambahan R2incremental

dalam skema forward untuk penentuan banyaknya unit di lapis tersembunyi yang

optimal dengan uji Wald dalam skema backward untuk pemilihan unit input yang

optimal.

5. HASIL EMPIRIS

Ada empat macam kajian empiris utama yang telah dilakukan dalam

penelitian ini. Kajian pertama dilakukan untuk menunjukkan bahwa statistik uji F

untuk inferensia R2incremental dan uji Wald secara empiris dapat bekerja dengan

baik dalam proses penentuan model FFNN terbaik pada suatu data runtun waktu

univariat. Bagian ini dilakukan dengan menggunakan suatu data simulasi untuk

runtun waktu univariat yang nonlinear. Hasil-hasil dari kajian ini secara umum

menunjukkan bahwa dua prosedur baru yang diusulkan dapat bekerja secara

baik dalam penentuan arsitektur FFNN yang terbaik. Secara lengkap hasil kajian

ini dapat dilihat pada Suhartono dkk. (2006a, 2006b), serta Subanar dan

Suhartono (2006b).

Ringkasan 144

Mulai






dan 1 unit neuron di lapis tersembunyi sebagai tahap awal penentuan banyaknya




Spesifikasikan model FFNN dengan banyaknya unit neuron TETAP dari hasil

sebelumnya, dimulai dengan 1 variabel lag input yang mempunyai

nilai R2 terbesar.

Apakah penambahan 1 variabel lag input memberikan


Selesai

Gambar 4.1. Prosedur pembentukan model melalui inferensia R2incremental

YA

TIDAK

TIDAK


TIDAK


neuron

YA

Masukkan 1 tambahan lag yg signifikan

YA

Ringkasan 145

Mulai






dan 1 unit neuron di lapis tersembunyi sebagai tahap awal penentuan banyaknya




Spesifikasikan model FFNN dengan banyaknya unit neuron TETAP dari hasil sebelumnya, gunakan banyaknya yang

relatif cukup banyak untuk variabel lag input yang ada pada model.

Melalui uji Wald, Apakah terdapat variabel lag input

yang tidak signifikan?

Selesai

Gambar 4.2. Prosedur kombinasi inferensia R2incremental dan uji Wald

YA

TIDAK

TIDAK


TIDAK


neuron

YA

Eliminasi lag variabel yg

tdk signifikan.

YA

Ringkasan 146

Kajian empiris yang kedua difokuskan pada perbandingan ketepatan

ramalan antara FFNN dengan model-model runtun waktu klasik. Ada dua kasus

real utama yang digunakan pada kajian ini, yaitu data inflasi bulanan di Indonesia

dan data jumlah penumpang pesawat udara internasional yang dikenal dengan

Airline Data. Secara umum, hasil dari kajian empiris ini menunjukkan bahwa

model yang kompleks tidak selalu memberikan hasil ramalan yang lebih baik

dibanding model yang lebih sederhana. Hasil lengkap dari kajian kedua ini dapat

dilihat pada Suhartono (2005), Suhartono dkk. (2005a, 2005c, 2006c).

Pada kajian ketiga, fokus penelitian dilakukan pada pengenalan metode

baru untuk pemrosesan awal data NN, terutama pada kasus runtun waktu yang

mengandung tren dan musiman. Kajian ini memberikan peluang untuk

pembentukan model hybrid yang merupakan kombinasi dari model-model runtun

waktu dengan FFNN. Sebagai studi kasus digunakan data seperti pada kajian

kedua, yaitu Airline Data. Hasil lengkap dari kajian ini dapat dilihat pada

Suhartono dkk. (2005b), serta Suhartono dan Subanar (2006a).

Pada akhirnya, kajian empiris dilakukan pada aplikasi FFNN untuk

peramalan runtun waktu multivariat. Fokus kajian adalah pada kasus spasial

runtun waktu. Pada bagian ini dilakukan pula evaluasi terhadap model space-

time, yaitu evaluasi terhadap kondisi stasioneritas model GSTAR(11) dan metode

penentuan bobot spasial (lokasi). Selain itu, diberikan pula hasil-hasil

perbandingan ketepatan ramalan antara FFNN dengan model-model runtun

waktu multivariat. Hasil dari kajian ini dapat dilihat pada Suhartono dan Subanar

(2006b, 2007).

6. KESIMPULAN DAN MASALAH TERBUKA

Dengan menggunakan beberapa teorema asimtotis dan konvergensi, dapat

diturunkan sifat asimtotits estimator yang mengikuti distribusi normal multivariat

asimtotis. Sifat asimtotis estimator ini selanjutnya digunakan untuk konstruksi uji

statistik Wald yang dapat diimplementasikan untuk inferensia statistik terhadap

estimator-estimator model FFNN. Suatu uji statistik baru melalui besaran

Ringkasan 147

kontribusi penambahan atau R2incremental telah dapat dikonstruksi. Uji ini

dikonstruksi melalui tiga tahapan utama pemodelan, yaitu model Tereduksi,

model Lengkap, dan penentuan uji statistik F .

Kontribusi utama dari hasil penelitian ini adalah diperolehnya dua prosedur

baru untuk pembentukan model FFNN yang diaplikasikan untuk peramalan

runtun waktu. Prosedur pertama mengimpementasikan uji statistik F pada

R2incremental dalam skema forward yang dimulai dengan penentuan banyaknya unit

di lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal.

Prosedur kedua menggunakan kombinasi antara uji statistik F pada R2incremental

dalam skema forward untuk penentuan banyaknya unit di lapis tersembunyi

dengan uji Wald dalam skema backward untuk penentuan variabel input yang

optimal.

Hasil kajian empiris menunjukkan bahwa algoritma ini dapat bekerja

dengan baik dalam menentukan arsitektur FFNN terbaik yang diterapkan untuk

peramalan runtun waktu. Hasil-hasil empiris berkaitan dengan perbandingan

ketepatan ramalan antara model FFNN dengan model-model runtun waktu yang

lain menunjukkan bahwa tidak ada jaminan bahwa FFNN selalu memberikan

hasil yang terbaik. Selain itu, kajian empiris tentang efek dari pemrosesan awal

data juga telah dilakukan dan menunjukkan bahwa pemilihan metode

pemrosesan awal data yang tepat dapat secara signifikan meningkatkan

ketepatan ramalan FFNN.

Pada akhirnya, hasil kajian tentang model GSTAR dikaitkan dengan

aplikasi FFNN untuk peramalan runtun waktu multivariat, memberikan temuan

baru berkaitan dengan model GSTAR, yaitu diperolehnya satu metode untuk

penentuan bobot lokasi yang optimal pada model GSTAR(11). Metode baru ini

dikembangkan dari besaran statistik korelasi silang, dan telah terbukti lebih baik

dibanding bobot-bobot lain yang telah dikembangkan oleh peneliti-peneliti

sebelumnya. Selain itu, hasil kajian teoritis berkaitan dengan stasioneritas

parameter model GSTAR berhasil menunjukkan bahwa ada kesalahan berkaitan

dengan teorema stasioneritas parameter model GSTAR(11) yang dikemukakan

oleh Borovkova dkk. (2002). Pada akhirnya, aplikasi FFNN untuk peramalan

Ringkasan 148

runtun waktu multivariat yang dikembangkan dari model GSTAR (Generalized

Space-Time Autoregressive) dan VAR (Vector Autoregressive) pada data

produksi minyak, terbukti memberikan hasil ramalan yang lebih baik dibanding

model GSTAR dan VAR.

Berdasarkan pembahasan pada penelitian ini diperoleh beberapa

permasalahan terbuka yang perlu untuk dilakukan penelitian lebih lanjut, yaitu :

1. Pengembangan uji nonlinearitas pada kasus runtun waktu multivariat,

termasuk data spasial runtun waktu. Uji ini akan memberikan argumen

yang fundamental terhadap kelayakan pemakaian suatu model nonlinear,

khususnya NN pada kasus runtun waktu multivariat ataupun spasial runtun

waktu.

2. Pengembangan prosedur pembentukan model pada NN dengan meng-

kombinasikan R2incremental dan uji Wald untuk memutus koneksi input ke unit

neuron di lapis tersembunyi ataupun koneksi dari neuron di lapis ter-

sembunyi ke neuron di lapis output. Kajian ini lebih menitikberatkan pada

aspek komputasi dan akan memberikan arah baru tentang arsitektur NN.

3. Pengembangan NN untuk peramalan runtun waktu pada data yang

nonmetrik (skala nominal atau ordinal) dan/atau data metrik yang tidak

kontinyu dan tidak berdistribusi Normal. Hal utama yang mendasari

pengembangan ini adalah suatu kenyataan bahwa permasalahan real pada

peramalan runtun waktu biasanya juga melibatkan data-data yang bersifat

kualitatif.

4. Pengembangan model-model hybrid, yaitu kombinasi dari NN dengan

beberapa model atau metode analisis data lainnya, misalnya Wavelet NN

ataupun Fuzzy NN, untuk peramalan runtun waktu univariat dan multivariat.

Hasil kajian tentang efek pemrosesan data awal pada penelitian disertasi ini

merupakan dasar utama pengembangan suatu model hybrid yang

mengkombinasikan NN dengan metode yang lainnya.

149

SUMMARY

FEEDFORWARD NEURAL NETWORKS FOR TIME SERIES MODELING

by

Suhartono

1. INTRODUCTION

During the last few years, modeling to explain nonlinear relationship between variables and some procedures to detect this nonlinear relationship have grown in a spectacular way and received a great deal of attention. An overview and further discussion on the subject can be found in Granger and Terasvirta (1993). This fact also happens in field of statistical modeling, particularly in time series modeling and econometrics. Due to computational advances and increased computational power, nonparametric models that do not make assumptions about the parametric form of the functional relationship between the variables to be modeled have become more easily applicable.

Neural Networks (NN) model is a prominent example of such a flexible functional form. The use of the NN model in applied work is generally motivated by a mathematical result stating that under mild regularity conditions, a relatively simple NN model is capable of approximating any Borel-measureable function to any given degree of accuracy; for example see Cybenko (1989), Funahashi (1989), Hornik, Stinchombe, and White (1989, 1990) or White (1990).

Today’s research is largely motivated by the possibility of using NN model as an instrument to solve a wide variety of application problems such as pattern recognition, signal processing, process control, and time series forecasting. Sarle (1994) stated that NN are used in three main ways, i.e. as models of biological nervous systems and “intelligence”, as real-time adaptive signal processors or controllers implemented in hardware for applications such as robots, and as data analytic methods.

Multilayer perceptron (MLP), also known as feed forward neural networks (FFNN), is probably the most commonly used NN architecture in engineering

Summary 150

application. Typically, applications of NN model for time series modeling and signal processing are based on the FFNN architecture. Some references that contain general concept and form of FFNN model can be found at Bishop (1995), Ripley (1996) and Fine (1999). FFNN model can be seen as nonlinear regression and discriminant models in term of statistical modeling. The relationship between NN and statistical models can be found in Cheng and Titterington (1994), Kuan and White (1994), Ripley (1993, 1994), Sarle (1994), and some articles on Cherkassky et al. (1994).

In the application of FFNN, it contains limited number of parameters (weights). How to find the best FFNN model, that is, how to find an accurate combination between number of input variables and unit nodes in hidden layer (imply the optimal number of parameters), is a central topic on the some NN literatures that discussed on many articles and books, see for example Bishop (1995), Ripley (1996), Fine (1999), Haykin (1999), and Reed and Marks II (1999).

In general, there are two procedures usually used to find the best FFNN model (the optimal architecture), those are “general-to-specific” or “top-down” and “specific-to-general” or “bottom-up” procedures. “Top-down” procedure is started from complex model and then applies an algorithm to reduce number of parameters (number of input variables and unit nodes in hidden layer) by using some stopping criteria, whereas “bottom-up” procedure works from a simple model. The first procedure in some literatures is also known as “pruning” (Reed, 1993; Reed and Marks II, 1999), or “backward” method in statistical modeling. The second procedure is also known as “constructive learning” and one of the most popular is “cascade correlation” (Fahlman and Lebiere, 1990; Littmann and Ritter, 1996; Prechlet, 1997), and it can be seen as “forward” method in statistical modeling.

Kaashoek and Van Dijk (2001) introduced a “pruning” procedure by implementing three kinds of methods to find the best FFNN model; those are incremental contribution (R2

incremental), principal component analysis, and graphical analysis. Whereas, Swanson and White (1995, 1997a, 1997b) applied a criteria of model selection, SBIC or Schwarz Bayesian Information Criteria, on “bottom-up” procedure to increase number of unit nodes in hidden layer and input variables until finding the best FFNN model.

Summary 151

In recent development, procedure of inference statistics was also applied to determine the best FFNN model. In this case, the concept of testing hypothesis, parameter distribution and the use of some criteria for model selection are applied to find the optimal FFNN model. Terasvirta and Lin (1993) were among the first researchers who applied this procedure to find the optimal number of unit nodes in hidden layer on FFNN model with single hidden layer. Some latest articles about FFNN model building by using inference statistics can be seen in Anders and Korn (1999) and Medeiros et al. (2002).

Time series forecasting has been an important application of NN from the very beginning. Lapedes and Farbes (1987) were among the first researchers who used a NN for time series processing. They explored the ability of FFNN to forecast a nonlinear computer generated signal; that is the Mackey-Glass differential equation. Later on, NN have also been used to predict observed real world time series (see, for example, de Groot and Wurtz, 1991; Weigend and Gershenfeld, 1993; Swanson and White, 1995; Weigend, 1996; Faraway and Chatfield, 1998; Lisi and Schiav, 1999; Motiwalla and Wahab, 2000; Yao and Tan, 2000; Leung et al., 2000; Kaashoek and Van Dijk, 2001, 2002; Crone, 2003, 2004; also Fildes and Liao, 2004). In general, the main focus of these researches is how to find the best FFNN model for time series forecasting. Some issues that gained much attention in the NN community until now are:

§ how to identify the appropriate input variables for FFNN model?

§ how to determine the appropriate input variables for FFNN model?

§ how to determine the optimal number of nodes in hidden layer for FFNN model?

§ what is the appropriate criteria for evaluating and selecting the best FFNN model?

§ what is the appropriate method for data preprocessing in FFNN model?

There are some procedures for NN model building that be proposed by many NN researchers. But, there is no procedure that be accepted until now as standard procedure in the NN community. Hence, one of the main problems in NN model building as statistical modeling particularly for time series model is no standard procedure to find the best NN model for time series, i.e. start on

Summary 152

identification step, parameter estimation and testing hypothesis, and check diagnostic for validating model goodness of fit based on certain criterion or statistic test.

This research focuses on the development of NN model building procedure that can be used as a standard procedure. There are many main problems that will be studied further to build a standard procedure, i.e.

(1). Developing of the appropriate test statistic or criterion to validate goodness of fit of FFNN that be applied for time series modeling.

(2). Investigation and developing of the appropriate FFNN model building procedure applied for time series modeling by implementing asymptotic properties of the estimators and statistics criterion.

2. TIME SERIES ANALYSIS

Chatfield (2001) stated that time series analysis in general has several objectives, i.e. forecasting, modeling, and controlling. Forecasting deals with the issue of constructing models and methods that can be used to produce accurate short-term predictions. The aim of modeling is to build a statistical model that adequately represents the long-term behaviour of a time series. These goals are not necessarily identical. While the former frequently leads to a black box model that produces predictions, the objective of the latter is more towards finding the model that has generated the data. Finally, controlling purpose is frequently used in engineering field, particularly signal processing.

Statistical modeling of time series can be traced back to Yule (1927), who initiated the linear autoregressive (AR) model to forecast the annual number of sunspots. Since then a large amount of literature has been published in the field of statistical time series analysis. Until 1980 most research focused on linear time series models, particularly on the class of linear autoregressive integrated moving average (ARIMA) models.

Brockwell and Davis (1991) defined that the process , tY ,2,1,0 K±±∈t is said to be an ARMA(p,q) process if tY is stationary and if fore every t ,

qtqttptptt YYY −−−− +++=−−− εθεθεφφ LL 1111 , (2.1)

Summary 153

where ),0(WN~ 2σε t . We say that tY is an ARMA(p,q) process with mean µ if µ−tY is an ARMA(p,q) process. Equation (2.1) can be written symbolically in the more compact form, i.e.

tt BYB εθφ )()( = , (2.2)

where φ and θ are the pth and qth degree polynomials

pp zzz φφφ −−−= L11)( (2.3)

and q

q zzz θθθ +++= L11)( (2.4)

and B is the backward shift operator defined by

jttj YYB −= , K,2,1,0 ±±=j . (2.5)

Box and Jenkins in 1976 developed a complete fitting procedure based on the ARIMA methodology, which is today a standard for linear time series modeling. ARIMA models have been rigorously analyzed (see Cryer, 1986; Wei, 1990; Box et al., 1994) and a discussion of their statistical properties can be found, e.g., in Brockwell and Davis (1991).

In the developing of time series analysis, it is a well known fact that many interesting and sometimes very simple phenomena are nonlinear in the sense that the relationship between the past and the present is nonlinear. Hence, the class of linear time series models is inadequate in that case and, in consequence, nonlinear time series models have received a great deal of attention during the last few years. Various particular forms of nonlinear models have been developed and applied to several examples. An overview and further discussion on the subject can be found, e.g., in Tong (1990), Priestley (1991), Lee et al. (1993), also Granger and Terasvirta (1993).

3. FEEDFORWARD NEURAL NETWORKS

Multi Layer Perceptrons (MLP), also known as feed forward neural network (FFNN), is the most commonly used NN architecture in engineering applications. Naturally, applications of NN for time series modeling are based on the MLP or FFNN architecture.

Summary 154

MLP can be seen as a flexible class of nonlinear functions. In general, this model work by receiving a vector of inputs X and compute a response or output

)(XY by propagating X through the interconnected processing elements. The processing elements are arranged in layers and the data, X , flows from each layer to the successive one. Within each layer, the inputs to the layer are nonlinearly transformed by the processing elements and propagated to the next layer. Finally, at the output layer )(XY , which can be scalar or vector valued, is computed.

Figure 3.1 is an example of typical MLP with one hidden layer that more well known as FFNN with single hidden layer. In this example, FFNN contains three input units, i.e. 1X , 2X , 3X , four hidden units with activation function ψ , and one output unit with linear activation function.

Figure 3.1. MLP architecture of a single hidden layer with three input units, four hidden units, and one output unit.

In this architecture, the response value )(XY is computed as

∑ ∑= =

++=H

j

I

iijijjY

1 100 )()( XX γγψββ (3.1)

Summary 155

where ),...,,,...,,( 1010 HIH γγβββ are the weights or parameters of the MLP. The nonlinearity enters into the function )(XY through the so called activation function ψ , usually a “smooth” threshold function such as the logistic sigmoid

1))exp(1()( −−+= ZZψ . (3.2)

The motivation to consider this type of MLP, i.e. with one hidden layer and no activation function at the output, stems from the fact that it can provide arbitrarily accurate approximations to arbitrary functions in a variety of normed function spaces if the dimension of the weight space is sufficiently large (Cybenko, 1989; Funahashi, 1989; Hornik et al., 1989).

Figure 3.2. AR-NN architecture that contains single hidden layer, three lagged dependent variables as inputs ( 321 ,, −−− ttt YYY ), four units in hidden layer, and one output unit ( tY ), with linear activation function on the output layer.

The application of NN for time series forecasting requires explicit treatment of the dynamics. MLP can accommodate the dynamics by including lagged (past) target variables, itY − , in the set of inputs. This can be achieved by setting

),...,( 1 ′= −− ptt YYX in equation (3.1). The resulting MLP output is known as Autoregressive Neural Network (ARNN) model and for 3 lags are graphically

Summary 156

illustrated in Figure 3.2. In general, architecture of this model is the same with ARIMA(p,0,0) model, where the difference is about function that transfer the past

),...,( 1 ′−− ptt YY to the present tY that is a nonlinear form. This AR-NN model is frequently said to a nonlinear autoregressive model (Faraway dan Chatfield, 1998).

3.1. Backpropagation Algorithm

Ripley (1996) stated that the existence of the function approximation was not useful if there was not known the way to find this function. This condition affected many researches about NN for many years. The main idea of the approximation by using NN is started by Rumelhart-McClelland (1986) learning for fitting parameters by employing least squares method. The training of the NN involves adjusting the weights of the network such that the output generated by the network for the given input ( )kx is as “close” to ),(ˆ wxy f= as possible. Formally, this can be formulated as the optimization problem by finding weights,

( , )ij jw γ β= , to minimize

∑=

−=n

kkk xfyQ

1

2)()( )];([)( ww (3.3)

as done in nonlinear regression (Bates dan Watts, 1998; Seber dan Wild, 1989).

Gradient descent is known as one of the oldest optimization methods. This method is based on a linear approximation of the error function given by

)()()( wwwww QQQ T ′∆+≈∆+ . (3.4)

The weights update is

0 ),( >′−=∆ ηη ww Q , (3.5)

where η is learning rate. Suhartono et al. (2005d) derived a corollary about back-propagation algorithm to find the optimal weights of FFNN for time series forecasting as illustrated in Figure 3.2.

3.2. Asymptotic Properties of FFNN Estimator

The large-sample properties of learning backpropagation in single hidden layer feedforward networks have been studied further by White (1989a, 1989b).

Summary 157

The aim of learning networks by using backpropagation is to find the solution *w on the optimization problem )(minarg wQWw∈ , i.e.


−==∈

, (3.6)

where *w is index of an optimal networks.

With squared error penalty, learning must arrive at *w , which solve

( )2/)]|(([]2/)),([(min 22 XYEYEXfYEWw

−=−∈

w

))2/)],()|(([ 2wXfXYEE −+ . (3.7)

Finding *w is precisely the problem of finding the parameters of an optimal least squares approximation to )|( XYE , the conditional expectation of Y given X .

Specifically, given target/input pairs ),( tt XY with nt ,,2,1 K= , randomly drawn from the operating environment, then nw is the nonlinear least squares estimator, i.e.

∑=

−

∈−=

n

tttn

WwXfYnQ

1

21 2/)),(()(minarg ww . (3.8)

Nonlinear regression is an established method that has been completely analyzed in statistics and econometrics literatures.

White (1989b) provided a formal statement of condition sufficient to guarantee convergence of nw , as stated in the following theorem.

Theorem 3.1. (White, 1989b). Let ),F,( PΩ be a complete probability space on

which is defined the sequence of independent identically distributed random

variables ,:( vtt ΖZ ℜ→Ω= ),2,1 K=t , ∈v ℕ ,2,1 K≡ . Let ℜ→×ℜ Wl v:

be a function such that for each w in W , a compact subset of sℜ , ∈s ℕ, ),( wl ⋅ is measurable- vΒ (where vΒ is the Borel σ -field generated by the open sets of

vℜ ), and for each z in vℜ , ),( ⋅zl is continuous on W . Suppose further that there exists +ℜ→ℜvd : such that for all w in W , )(|),(| zdzl ≤w and

∞<))(( tZdE (i.e., l is dominated on W by an integrable function).

Then for each K,2,1=n there exists a solution nw to the problem

∑ =−


1 ),()(ˆmin wZw and ,..ˆ * Psan −→ Ww where ** wW ≡ )()(: * wwW QQ ≤∈ for all Ww ∈ , )),(()( wZw tlEQ = .

Summary 158

3.3. Asymptotic Normality of FFNN Estimator

The appropriate formal concept for studying the limiting distribution of nw is that of convergence in distribution. Asymptotic distribution of nw depends on the nature of *W . In general *W may consist of isolated points and/or isolated ”flat”. If convergence to a flat occurs, then the estimated weights nw have a limiting distribution that can be analyzed using the theory of Phillips (1989) for “partially identified” models. These distributions belong to the “limiting mixed Gaussian” (LMG) family introduced by Phillips. When *w is locally unique, the model is said to be “locally identified” and estimated weights nw converging to *w have a limiting multivariate normal distribution.

The condition ensuring that nw is the multivariate normal distribution have been studied further by White (1989b). The following theorem is one of the results of White’s works.

Theorem 3.2. (White, 1989b) Let ),F,( PΩ , tZ , W and l be as in Theorem 3.1, and suppose that Psan −→ .. ˆ *ww where *w is an isolated element of *W

interior to W .

Suppose in addition that for each z in vℜ , is continuously differentiable of

order 2 on ∫ W ; that ∞<∇′∇ )),(),(( ** ww tt ZlZlE ; that each element of l2∇ is dominated on W by an integrable function; and that )),(( *2* wA tZlE ∇≡ and

)),(),(( *** ′∇∇≡ wwB tt ZlZlE are nonsingular )( ss × matrices, where ∇ and 2∇ denote the )1( ×s gradient and )( ss × Hessian operators with respect to w .

Then ),()ˆ( ** C0ww Ν→− dnn , where 11* ∗−∗∗−= ABAC . If in addition

each element of ll ′∇∇ is dominated on W by an integrable function, then Psan −→ ∗ .. ˆ CC , where 11 ˆˆˆˆ −−= nnnn ABAC , and

n

Zlnt nt

n∑ = ∇

= 12 )ˆ,(ˆ w

A , n

ZlZlnt ntnt

n∑ = ′∇∇

= 1 )ˆ,()ˆ,(ˆ wwB .

3.4. Hypothesis Testing by Using Wald Test

White (1989b) stated that taking one Nonlinear Least Squares (NLS) Newton-Raphson step from the backpropagation estimator asymptotically

Summary 159

equivalent to NLS. Thus, tests of hypotheses bases on nw can be conducted for selecting the optimal architecture of FFNN.

The Wald statistic allows the simplest analysis, although it may or may not the easiest statistic to compute in a given situation. The motivation for the Wald statistic is that when the null hypothesis is correct 0Sw =∗:0H should be close to 0Sw ≠∗:1H , so a value of swS −nˆ far from zero is evidence against the null hypothesis.

The theorem about Wald statistic that be used for hypothesis testing of parameters in NN model is constructed as the following results.

Theorem 3.3. Let the conditions of Theorem 3.2 2 hold, i.e.

(i) ),()ˆ(2/1

I0wwC Ν→− ∗−∗ dnn , where

'11 ABAC −∗∗−∗∗ ≡ , and 1−∗C is

)1(O .

(ii) there exists a matrix nB positive semidefinite and symmetric such that ∗− BBn

ˆ 0→p . Then ∗− CCnˆ 0→p , where 11 ˆˆˆˆ −−= nnnn ABAC ,

n

,Zlnt nt

n∑ = ∇

= 12 )ˆ(ˆ w

A , n

ZlZlnt ntnt

n∑ = ′∇∇

= 1 )ˆ,()ˆ,(ˆ wwB ,

And, let kq ≤=)(rank S . Then under sH =∗Sw:0 ,

(i) ),()ˆ(2/1 I0swSΓ Ν→−− dnn n , where =≡ ∗ 'n SSCΓ '

'SABSA 11 −∗∗−∗ .

(ii) The Wald statistic,

21 )ˆ(ˆ)ˆ( qd

nnnn nW χ→−′−≡ − swSΓswS ,

where 'nn SCSΓ ˆˆ ≡ .

Thus, a test about the relevance (significance) of input with null hypothesis 0Sw =∗:0H again 0Sw ≠∗:1H could be done by applying Theorem 3.3. As an

example, Wald test for this hypothesis testing can be calculated as


where ∗C as stated at the previous section.

Summary 160

4. FFNN FOR TIME SERIES FORECASTING

Time series forecasting is one of the main fields for FFNN application. In this situation, FFNN can be seen as a nonlinear time series model. Let tΙ be the information set

tΙ 0,;0, ≥>= −− iXjY itjt , nt ,,2,1 K= , (4.1)

and denote all of the lags variables tY and a vector of exogenous variables tX . The modeling process will then attempt to find a satisfactory approximation for

)( tIf such that

)(]|[ ttt IfΙYE = . (4.2)

Terasvirta et al. (1994) proposed three steps of modeling strategies that be

used for nonlinear time series model. The proposed strategy is as follows:

(i). Test tY for linearity, using the information tΙ .

(ii). If linearity is rejected, consider a small number of alternative parametric models and/or nonparametric models.

(iii). These models should be estimated in-sample and compared out-of-sample.

The strategy is by no means guaranteed to be successful. For example, if the nonlinearity is associated with a specific feature of the data, but if this feature does not occur in the post-sample evaluation period, then the nonlinear model may not perform any better than a linear model.

This section contains the results of theoretical and empirical study of nonlinearity test for time series, and theoretical study about procedure for FFNN model building applied to time series. The result about nonlinearity test can be completely found in Suhartono and Subanar (2004), also Subanar and Suhartono (2005, 2006a).

4.1. Statistically Inference of R2 Incremental

Suhartono et al. (2006a) used statistical inference of R2 incremental contribution on the forward procedure to determine the best architecture of FFNN. This approach involves three basic steps, which can be described in the following theorem.

Summary 161

Theorem 4.1. Let the Reduced Model is defined as

)()( )ˆ,( Rt

Rntt XfY ε+= w , (4.3)

where Rl is the number of parameters to be estimated. And, let the Full Model

that is more complex than Reduced Model is defined as

)()( )ˆ,( Ft

Fntt XfY ε+= w , (4.4)

where Fl is the number of parameters in the Full Model, RF ll > . Then, under or

testing for and additional parameters in the Full Model equal to zero, the F statistic can be constructed, i.e.

])[],[()(

)()(21

~)/(

)/()(FRF lnvllv

FF

RFFR FlnSSE

llSSESSE−=−=−

−−. (4.5)

Statistik uji F ini dapat pula dinyatakan dalam bentuk

)()(

)()()()(

/)/()(

FF

FRFR

dfSSEdfdfSSESSE

F−−

= , (4.6)

or

)(

2)(

)()(2

lincrementa

)1(

)(

FF

FR

dfR

dfdfRF

−

−= , (4.7)

where 2)(

2)(

2lincrementa RF RRR −= , )(Rdf Rln −= is degree of freedom at Reduced

Model, and )(Fdf Fln −= is degree of freedom at Full Model.

4.2. Algorithm for FFNN Model Building: Implementation of Nonlinearity

test, Statistical Inference of R2incremental and Wald test

Based on the Wald test and statistically inference of R2incremental, we

proposed two new procedures for FFNN model building that applied for time series forecasting. In the first step, nonlinearity test is employed to validate whether a nonlinear time series model must be used for analyzing the time series data.

These two algorithms are started with the same approach, i.e. forward scheme by using inference of R2

incremental for determining the optimal number of hidden nodes. Then, the first procedure continue with the same forward scheme for selecting the optimal input units, and illustrated as Figure 4.1. Whereas, the

Summary 162

second procedure continue to the backward scheme by implementing Wald test for selecting the optimal input units. This combination between inference of R2

incremental and Wald test is illustrated in Figure 4.2.

START

Apply nonlinearity test for detecting nonlinear relationship in time series.

Does nonlinearity test show that there is a nonlinear

relationship?

Specify FFNN model with many (relative) inputs and 1 neuron unit in the hidden layer as

preliminary step for determining the optimal number of hidden nodes.

Does the additional 1 node in the hidden layer yield the significance

of R2incremental ?

Specify FFNN model with FIXED number of hidden nodes as result of the previous step, start with lag inputs that has the largest R2.

Does the additional 1 lag Input yield the significance of

R2incremental ?

END

Figure 4.1. The first proposed procedure of FFNN model building for time series forecasting

YES

NO

NO

Apply ARIMA model.

NO

Add 1 node in the hidden layer.

YES

Add 1 additional lag input.

YES

Summary 163

START

Apply nonlinearity test for detecting nonlinear relationship in time series.

Does nonlinearity test show that there is a nonlinear

relationship?

Specify FFNN model with many (relative) inputs and 1 neuron unit in the hidden layer as

preliminary step for determining the optimal number of hidden nodes.

Does the additional 1 node in the hidden layer yield the significance

of R2incremental ?

Specify FFNN model with FIXED number of hidden nodes as result of the previous step, use many (relative) lag inputs in the FFNN.

By using Wald test, are there the not significance lag

inputs?

END

Figure 4.2. The second proposed procedure of FFNN model building

for time series forecasting

YES

NO

NO

Apply ARIMA model.

NO

Add 1 node in the hidden layer.

YES

Eliminate the not significance lag.

YES

Summary 164

5. EMPIRICAL RESULTS

In this research, there are four main empirical studies that have been completed. The first empirical study is used to show that F test for validating the significance of R2

incremental, and Wald test work properly for FFNN model building that be applied for time series univariate. This part is done by using simulation data of a nonlinear time series. The results of this studies generally show that two new proposed procedures work properly for selecting the best FFNN architecture. The complete results of this studies have been published and can be seen in Suhartono et al. (2006a, 2006b), also in Subanar and Suhartono (2006b).

The second empirical study focuses on the forecast accuracy comparison between FFNN and classical time series models. There are two main cases that used in this study, i.e. monthly Indonesian inflation and data about the number of international airline passenger known as Airline Data. In general, the results show that complex model does not always yield better forecast than simple models. The results of this study also have been published and can be seen completely in Suhartono (2005), and Suhartono et al. (2005a, 2005c, 2006c).

In the third part, research focuses to study a new data preprocessing method for NN, particularly at time series containing trend and seasonal pattern. This study give an opportunity to develop new hybrid model as the result of combination between time series models and FFNN. Airline data is used as a case study. The results of the third empirical study can be seen completely in Suhartono et al. (2005b), also in Suhartono and Subanar (2006a).

Finally, the application of FFNN for multivariate time series forecasting is done in the fourth empirical study. This part focuses on the spatial time series case. Additionally, evaluation about stationary condition of GSTAR(11) model and determination method of spatial weights are also done. The results of this empirical study can be seen in Suhartono in Subanar (2006b, 2007).

6. CONCLUSION AND OPEN PROBLEM

By using asymptotic and convergence theorems, asymptotic properties of FFNN estimators that follow multivariate normal distribution can be derived.

Summary 165

Then, these asymptotic properties are used to construct Wald test implemented for doing statistical inference of FFNN estimator. The new statistic test by using contribution incremental or R2

incremental has been constructed. This test contains three main steps of modeling, i.e. Reduced model, Full model, and determination of F test statistic.

Two new procedures for FFNN model building applied for time series forecasting are the main contribution of this research. The first procedure implements F test for R2

incremental inference in forward scheme that start from determination of the number of neurons in hidden layer and then selection of the optimal inputs. The second procedure uses a combination between F test for R2

incremental inference in forward scheme for determining the number of neurons in hidden layer and Wald test in backward scheme for selecting the optimal inputs.

The empirical results show that two procedures can work properly for determining the optimal FFNN architecture that be applied for time series forecasting. The comparison results between FFNN and other time series models show that FFNN does not always yield the best forecast. Additionally, the empirical study about the effect of data preprocessing also have been done and the result shows that determination of an optimal data preprocessing can increase significantly the forecast accuracy of FFNN. Finally, the comparison study between FFNN and other time series models on the multivariate case has been also conducted. The comparison result by using the oil production data shows that FFNN yields better forecast than GSTAR (Generalized Space-Time Autoregressive) and VAR (Vector Autoregressive) models.

Based on the results at the previous section, there are some open problems that need further research, i.e.

1. Developing of nonlinearity test for multivariate time series, including spatial time series. This test will give a fundamental argument about the use of nonlinear model, particularly FFNN for multivariate or spatial time series.

2. Developing of FFNN model building procedure by using a combination between R2

incremental and Wald test for pruning the connection from inputs to hidden nodes, also from hidden nodes to output units. The further research focuses on the computational aspect and will give a new direction about the FFNN architecture.

Summary 166

3. Developing of FFNN for time series forecasting on nonmetric data (nominal or ordinal scale) and/or metric data that are not continuous and not normally distributed. It’s caused many real problems in time series analysis are also deal with qualitative data.

4. Developing of hybrid models for time series forecasting, i.e. a combination between FFNN and other models, such as Wavelet NN or Fuzzy NN. The empirical results about the effect of data preprocessing inspire to develop hybrid model that combine NN and other models.

- 167 -

DAFTAR PUSTAKA

Anders, U. and Korn, O. (1999). Model selection in neural network. Neural Networks, 12, 309-323.

Bates, D.M. and Watts, D.G. (1988). Nonlinear Regression Analysis and Its Applications. Wiley, New York.

Baxt, W.G. (1991). Use of an artificial neural network for the diagnosis of myocardial infarction. Annals of Internal Medicine, 115, 843-848.

Blake, A.P. and Kapetanios, G. (2003). Pure Significance Tests of The Unit Root Hypothesis Against Nonlinear alternatives. Journal of Time Series Analysis,

Vol. 24, No. 3, 253-267.

Billingsley, P. (1979). Probability and Measure, 2nd edition. Wiley-Interscience, New York.

Bishop, C.M. (1995). Neural Network for Pattern Recognition. Oxford: Clarendon Press.

Borovkova, S.A., Lopuhaa, H.P. and Ruchjana, B.N. (2002). Generalized STAR model with experimental weights. In M Stasinopoulos & G Touloumi (Eds.), Proceeding of the 17th International Workshop on Statistical Modeling, Chania-Greece, pp. 139-147.

Box, G.E.P., Jenkins, G.M. and Reinsel, G.C. (1994). Time Series Analysis, Forecasting and Control, 3rd edition. Englewood Cliffs: Prentice Hall.

Brockwell, P.J. and Davis, R.A. (1991). Time Series: Theory and Methods, 2nd edition. New York: Springer Verlag.

Broomhead, D.S. and Lowe, D. (1988). Multivariable functional interpolation and adaptive network. Complex Systems, 2, 321-355.

Chatfield, C. (2001). Time Series Forecasting. Chapman & Hall, London.

Cheng, B. and Titterington, D.M. (1994). Neural Networks: A Review from a Statistical Perspective. Statistical Science, 9, 2-54.

Daftar Pustaka

168

Cherkassky, V., Friedman, J.H. and Wechsler, H. (1994). From Statistics to Neural Networks: Theory and Pattern Recognition Applications. Berlin: Springer-Verlag.

Connor, J.T., Atlas, L.E. and Martin, D.R. (1992). Recurrent networks and NARMA modeling. In Moody, J.E., Hanson, S.J., and Lippmann, R.P. (eds.), Advances in Neural Information Processing Systems, Vol. 4, pp. 301-308. Morgan Kaufmann Publishers, Inc.

Connor, J.T., Martin, D.R., and Atlas, L.E. (1994). Recurrent networks and robust time series prediction. IEEE Transactions on Neural Networks, 5, 240-254.

Cryer, J.D. (1986). Time Series Analysis. Boston: PWS-KENT Publishing Company.

Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems, 2, 304-314.

Elman, J.L. (1990). Finding structure in time. Cognitive Science, 14, 179-211.

Fahlman, S.E. and Lebiere, C. (1990). The Cascade-Correlation Learning Architecture. In Touretzky, D.S. (ed.), Advances in Neural Information

Processing Systems 2, Los Altos, CA: Morgan Kaufmann Publishers, pp. 524-532

Faraway, J. and Chatfield, C. (1998). Time series forecasting with neural network: a comparative study using the airline data. Applied Statistics, 47, 231-250.

Fine, T.L. (1999). Feedforward Neural Network Methodology. Springer, New York.

Funahashi, K. (1989). On the approximate realization of continuous mappings by neural networks. Neural Networks, 2, 183-192.

Granger, C.W.J. and Terasvirta, T. (1993). Modeling Nonlinear Economic Relationships. Oxford: Oxford University Press.

de Groot, C. and Wurtz, D. (1991). Analysis of univariate time series with connectionist nets: A case study of two classical examples. Neurocomputing. 3, 177-192.

Daftar Pustaka

169

Hamilton, J.D. (1994). Time Series Analysis. New Jersey: Princeton University Press.

Harvey, A.C. (1990). Econometrics analysis of time series. 2nd edition. Cambridge, MA: MIT Press.

Haykin, H. (1999). Neural Networks: A Comprehensive Foundation, 2nd edition. Prentice-Hall, Oxford.

Hornik, K., Stinchombe, M. and White, H. (1989). Multilayer feedforward networks are universal approximators. Neural Networks, 2, 359-366.

Hornik, K., Stichcombe, M. and White, H. (1990). Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural Networks, 3, pp. 551-560.

Jordan, M. (1986). Serial Order: A Parallel Distributed Processing Approach. ICS Report 8604, Institute for Cognitive Science, University of California, San Diego, California, USA.

Kaashoek, J.F. and Van Dijk, H.K., (2001). Neural Networks as Econometric Tool. Report EI 2001–05, Econometric Institute Erasmus University Rotterdam.

Kaashoek, J.F., and Van Dijk, H.K. (2002). Neural Network Pruning Applied to Real Exchange Rate Analysis. Journal of Forecasting, 21, pp. 559-577.

Kippenhan, J.S., Barker, W.W., Pascal,S., Nagel, J. and Duara, R. (1992). Evaluation of a neural network classifier for PET scans of normal and Alzheimer disease subjects. Journal of Nuclear Medicine, 33, 1459-1467.

Kuan, C.M. and White, H. (1994). Artificial Neural Networks: An econometric perspective. Econometric Reviews, 13, 1-91.

Lapedes, A. and Farber, R. (1987). Nonlinear Signal Processing Using Neural

Networks: Prediction and System Modeling. Technical Report LAUR-87-2662, Los Alamos National Laboratory, Los Alamos, NM.

Lee, T.H., White, H. and Granger, C.W.J. (1993). Testing for Neglected Nonlinearity in Time Series Models: A comparison of Neural Network methods and alternative test. Journal of Econometrics, 56, pp. 269-290.

Daftar Pustaka

170

Leung, M.T., Chen, A.S. and Daouk, H. (2000). Forecasting exchange rates using general regression neural networks. Computers and Operations Research, 27, 1093-1110.

Leung, C.S. and Chan, L.W. (2003). Dual extended Kalman filtering in recurrent neural network. Neural Networks, 16, 223-239.

Lisi, F. and Schiavo, R.A. (1999). A comparison between neural network and chaotic models for exchange rate prediction. Computational Statistics & Data Analysis, 30, 87-102.

Littmann, E. and Ritter, H. (1996). Learning and generalization in cascade network architectures, Neural Computation, 8, 1521-1539.

Luukkonen, R., Saikkonen, P. and Terasvirta, T. (1988). Testing linearity against smooth transition autoregressive models. Biometrika, 75, 491-499.

McCullogh, W.S. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, Vol. 5, pp. 115-133.

Medeiros, M.C., Terasvirta, T. and Rech, G. (2002). Building Neural Network for Time Series: A Statistical Approach. SSE/EFI Working Paper Series in Economics and Finance No. 508.

Mittelhammer, R.C. (1996). Mathematical Statistics for Economics and Business. New York: Springer.

Moller, M. (1997). Efficient Training of Feed-Forward Neural Networks. Ph.D. Thesis, Computer Science Department, Aarhus University.

Moody, J. and Darken, C. (1989). Fast learning in networks of locally tuned processing units. Neural Computation, 1 (2), 281-294.

Motiwalla, L. and Wahab, M. (2000). Predictable variation and profitable trading of US equities: a trading simulation using neural networks. Computers &

Operations Research, 27, 1111-1129.

Pazos, A., Maojo, V., Martin, F. and Ezquerra, N. (1992). A neural network approach to assess myocardial infarction. In: Lun et al. (eds.), Medinfo: 92, 659-663: Amsterdam, Elsevier.

Pfeifer, P.E. and Deutsch, S.J. (1980a). A Three Stage Iterative Procedure for Space-Time Modeling. Technometrics, Vol. 22, No. 1, pp. 35-47.

Daftar Pustaka

171

Pfeifer, P.E. and Deutsch, S.J. (1980b). Identification and Interpretation of First Order Space-Time ARMA Models. Technometrics, Vol. 22, No. 1, pp. 397-408.

Phillips, P.C.B. (1989). Partially identified econometric models. Econometric Theory, vol. 5, pp. 181-240.

Poggio, T. and Girosi, F. (1990). Network for approximation and learning. Proceedings of IEEE, 78 (9), 1491-1497.

Prechelt, L. (1997). Investigation of the CasCor Family of Learning Algorithms. Neural Networks, 10, 885-896.

Priestley, M.B. (1980). State-dependent models: a general approach to non-linear time series analysis. Journal of Time Series Analysis, 1, 47-71.

Priestley, M.B. (1991). Non-Linear and Non-Stationary Time Series Analysis, 2nd edition. London: Academic Press.

Reddy, D.C. and Korrai, D.R. (1992). Neural Networks for classification of EEG signals. In: Lun et al. (eds.), Medinfo: 92, 653-658: Amsterdam, Elsevier.

Reed, R. (1993). Pruning algorithms – A survey. IEEE Transactions on Neural Networks, 4, 740-747.

Reed, R.D. and Marks II, R.J. (1999). Neural Smithing. MIT Press, Cambridge, MA.

Ripley, B.D. (1993). Statistical Aspects of Neural Networks. In O.E. Barndorff-Nielsen, J.L. Jensen and W.S. Kendall, eds., Networks and Chaos: Statistical and Probabilistic Aspects, Chapman & Hall.

Ripley, B.D. (1994). Neural Networks and Related Methods for Classification, Journal of the Royal Statistical Society, Series B, 56, 409-456.

Ripley, B.D. (1996). Pattern Recognition and Neural Networks. Cambridge University Press, Cambridge.

Ruchjana, B.N. (2002). Curve Modeling of Oil Production by Using Generalized S-TAR Model. Forum Statistika dan Komputasi, Special Edition, IPB, Bogor.

Ruchjana, B.N. (2003). The Stationary Conditions of The Generalized Space-Time Autoregressive Model. Proceeding of the SEAMS-GMU Conference, Gadjah Mada University, Yogyakarta.

Daftar Pustaka

172

Rumelhart, D. and McClelland, J. (1986). Parallel Distributed Processing: Explorations in the Microstructures of Coginition, Vol. 1., Cambridge: MIT Press.

Saikkonen, P. and Luukkonen, R. (1988). Lagrange multiplier tests for testing non-linearities in time series models. Scandinavian Journal of Statistics, 15, 55-68.

Sarle, W. (1994), Neural network and Statistical Models. In Proceeding 19th A SAS Users Group Int. Conf., pp. 1538-1550. Cary: SAS Institute.

Seber, G.A.F. and Wild, C.J. (1989). Nonlinear Regression. Wiley, New York.

Serfling, R. (1980). Approximation Theorems of Mathematical Statistics. Wiley, New York.

Somoza, E. and Somoza, J.R. (1993). A neural network approach to predicting admission in a psychiatric emergency room. Medical Decision Making, 13, 273-280.

Subanar and Suhartono (2005). Monte Carlo Simulation Study of The Neural Network Linearity Test for Time Series. Proceeding Asian Mathematics

Conference (AMC05), National University of Singapore, Singapore.

Subanar dan Suhartono (2006a). Uji linearitas tipe Lagrange Multiplier dengan ekspansi Taylor untuk deteksi hubungan nonlinear pada data time series, Journal of The Indonesian Mathematical Society (MIHMI), Vol. 12, No. 1, 17-32.

Subanar and Suhartono (2006b). Model Selection in Neural Networks by using Inference of R2

incremental and Principal Component Analysis for Time Series Forecasting. Presented at The 2nd IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Universiti Sains Malaysia, Penang.

Subanar, Guritno, S. dan Hartati, S. (2005). Neural Network, Pemodelan Statistik dan Peramalan Data Finansial. Laporan Penelitian HPTP Tahun I, UGM, Yogyakarta.

Suhartono (2005). Neural Networks, ARIMA and ARIMAX Models for Forecasting Indonesian Inflation. Jurnal Widya Manajemen & Akuntansi, Vol. 5, No. 3, hal. 45-65.

Daftar Pustaka

173

Suhartono and Atok, R.M. (2005). Perbandingan antara model VARIMA dan GSTAR untuk peramalan data deret waktu dan lokai. Prosiding Seminar Nasional Statistika VII, Institut Teknologi Sepuluh Nopember, Surabaya.

Suhartono dan Atok, R.M. (2006). Pemilihan bobot lokasi yang optimal pada model GSTAR. Prosiding Konferensi Nasional Matematika XIII, Universitas Negeri Semarang.

Suhartono and Subanar (2004). The Neural Network Linearity Test for Time Series Modeling. Proceeding International Conference on Statistics and Mathematics and Its Applications in the Development of Science and

Technology, Bandung Islamic University, Bandung.

Suhartono and Subanar (2006a). The Effect of Decomposition Method as Data Preprocessing on Neural Networks Model for Forecasting Trend and Seasonal Time Series. JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 9, No. 2, pp. 27-41.

Suhartono and Subanar (2006b). The Optimal Determination of Space Weight in GSTAR Model by using Cross-correlation Inference. JOURNAL OF QUANTITATIVE METHODS: Journal Devoted to The Mathematical and Statistical Application in Various Fields, Vol. 2, No. 2, pp. 45-53.

Suhartono and Subanar (2007). Some Comments on the Theorem Providing Stationarity Condition for GSTAR Models in the Paper by Borovkova et al. Journal of The Indonesian Mathematical Society (MIHMI), Vol. 13, No. 1, pp. 44-52.

Suhartono, Subanar and Guritno, S. (2005a). A Comparative Study of Forecasting Models for Trend and Seasonal Time Series: Does complex model always yield better forecast than simple models? JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 7, No. 1, pp. 27-41.

Suhartono, Subanar and Guritno, S. (2005b). The Impact of Data Preprocessing on Feedforward Neural Networks Model for Forecasting Trend and Seasonal Time Series. Proceeding Mini Symposia, International Con-ference on Applied Mathematics (ICAM05), ITB, Bandung.

Suhartono, Subanar and Rezeki, S. (2005c). Feedforward Neural Networks Model for Forecasting Trend and Seasonal Time Series. Proceeding of The

Daftar Pustaka

174

1st IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia

Suhartono, Rezeki, S., Subanar and Guritno, S. (2005d). Optimisation of Backpropagation Algorithm of Feedforward Neural Networks for Regression and Time Series Modeling. Proceeding International Regional Conference on

Mathematics, Statistics and It’s Application (IRCMSA), Danau Toba, Medan.

Suhartono, Subanar and Guritno, S. (2006a). Model Selection in Neural Networks by Using Inference of R2

Incremental, PCA, and SIC Criteria for Time Series Forecasting, JOURNAL OF QUANTITATIVE METHODS: Journal

Devoted to The Mathematical and Statistical Application in Various Fields, Vol. 2, No. 1, 41-57.

Suhartono, Subanar and Guritno, S. (2006b). Model Building in Neural Networks for Time Series Forecasting by Using Inference of R2 Incremental and SIC Criterion. Proceeding of The 2nd Information and Communication Technology

Seminar (ICTS), Institut Teknologi Sepuluh Nopember, Surabaya.

Suhartono, Subanar and Guritno, S. (2006c). The Impact of Linearity test on Forecasting Indonesian Inflation by Using Neural Networks. Proceeding of the International Conference on Mathematics and Statistics (ICOMS), Bandung Islamic University, Bandung.

Swanson, N.R. and White, H. (1995). A model-selection approach to assessing the information in the term structure using linear models and artificial neural networks. Journal of Business and Economic Statistics, 13, 265-275.

Swanson, N.R. and White, H. (1997a). Forecasting economic time series using flexible versus fixed specification and linear versus nonlinear econometric models. International Journal of Forecasting, 13, 439-461.

Swanson, N.R. and White, H. (1997b). A model-selection approach to real-time macroeconomic forecasting using linear models and artificial neural networks. Review of Economic and Statistics, 79, 540-550.

Tang, Z., Almeida, C. and Fishwick, P.A. (1991). Time series forecasting using neural networks vs. Box-Jenkins methodology. Simulation, 57:5, pp. 303-310.

Daftar Pustaka

175

Terasvirta, T. and Lin, C.F. (1993). Determining the number of hidden units in single hidden-layer neural network model. Research Report 1993/7, Bank of Norway.

Terasvirta, T., Lin, C.F. and Granger, C.W.J. (1993). Power of the neural network linearity test. Journal of Time Series Analysis, 14, 159-171.

Terasvirta, T., Tjostheim, D. and Granger, C.W.J. (1994). Aspect Modelling Nonlinear Time Series, in: R.F. Engle and D.L. McFadden, eds., Handbook of econometrics. Vol. 4, Chapter 48, pp. 2919-2957, Elsevier Science B.V.

Tong, H. (1990). Non-Linear Time Series: A Dynamical System Approach. Oxford: Oxford University Press.

Wei, W.W.S. (1990). Time Series Analysis: Univariate and Multivariate Methods. Addison-Wesley Publishing Co., USA.

Weigend, A.S. (1996). Time series analysis and prediction. In Smolensky, P., Mozer, M.C., and Rumelhart, D.E. (eds.), Mathematical Perspectives on Neural Networks. Mahwah, New Jersey: Lawrence Erlbaum Associates.

Weigend, A.S., Hubermann, B.A. and Rumelhart, D.E. (1990). Predicting the future: A connectionist approach. International Journal of Neural Systems, 1, 193-209.

Weigend, A.S. and Gershenfeld, N.A. (eds.) (1993). Time Series Prediction: Forecasting the Future and Understanding the Past. Reading, MA: Addison-Wesley.

Weinstein, J.N., Kohn, K.W., Greuer, M.R., Viswanadhan, V.N. and Rubinstein, L.V. (1992). Neural computing in cancer drug development: Predicting mechanism of action. Science, 258, 447-451.

West, P.M., Brockett, P.L. and Golden, L.L. (1997). A comparative analysis of neural networks and statistical methods for predicting consumer choice. Marketing Science, 16, 370-391.

White, H. (1989a). Some asymptotic results for learning in single hidden layer feedforward networks. Journal of the American Statistical Association, Vol. 84, No. 408, pp. 1003-1013.

White, H. (1989b). Learning in Artificial Neural Networks: A statistical Perspective. Neural Computation, Vol. 1, pp. 425-464.

Daftar Pustaka

176

White, H. (1989c). An additional hidden unit test for neglected nonlinearity in multilayer feedforward networks. In Proceedings of the International Joint Conference on Neural Networks, vol. 2, pp. 451-455, Washington, DC. IEEE Press, NY.

White, H. (1990). Connectionist nonparametric regression: Multilayer feed forward networks can learn arbitrary mapping. Neural Networks, 3, 535-550.

White, H. (1999). Asymptotic Theory for Econometricians. Academic Press Inc., New York.

Wilson, R.L. (1994). A neural network approach to decision alternative prioritization. Decision Support Systems, 11, 431-447.

Wilson, R.L. and Sharda, R. (1994). Bankruptcy prediction using neural network. Decision Support Systems, 11, 545-557.

Wong, B.K., Lai, V.S. and Lam, J. (2000). A bibliography of neural network business applications research: 1994-1998. Computers and Operations

Research, 27, 1045-1076.

Yao, J. and Tan, C.L. (2000). A case study on using neural networks to perform technical forecasting of forex. Neurocomputing, 34, 79-98.

Yule, G.U. (1927). On a method of investigating periodicities in distributed series with special reference to Wolfer’s sunspot numbers. Philosopical Transactions of the Royal Society of London Series A, 226, 267-298.

- 177 -

Lampiran 1 : Kumpulan bukti-bukti Teorema di Bab III

Bukti: (Teorema 3.2.1, White 1989b)

Aplikasikan Proposisi 3.2.1 untuk pembuktian teorema ini. Asumsi 3.2.1

memastikan bahwa nZ adalah IID dan terbatas secara seragam. Asumsi 3.2.2

memastikan bahwa )),((),(),(),( wxywxwxywz ff,qm −′∇=′−∇= adalah

dapat diturunkan secara kontinyu pada lv ℜ×ℜ . Diketahui bahwa

)))(()(()),,(()( wwww ttttt fYfEXYqEM −′∇=′−∇= .

Untuk w tetap, kontinyuitas dari )),((),( wxwx fyf −′∇ pada suatu sub-

himpunan kompak vℜ yang mengandung ),( tt XY berimplikasi bahwa

))(()( ww ttt fYf −′∇ adalah terbatas, memastikan bahwa ∞<)(wM . Asumsi

3.2.3 menentukan suatu kondisi untuk nη .

Gunakan 2/))](())([()( www tttt fYfYEQ −′−= . Dengan versi

terlokalisasi Teorema 16.8(ii) dari Billingsley (1979; halaman 181-182), untuk

setiap lℜ∈w dapat diperoleh )())((()( www ttt ffYEQ ∇′−−=∇ , diberikan

Asumsi 3.2.1 dan 3.2.2. Sebagai konsekuensinya, )()( ′−=∇ ww MQ , sehingga

)()( ww MQ∇ 0)()( ≤′−= ww MM untuk semua w dalam lℜ . Kondisi dari

Proposisi 3.2.1(a) dengan demikian telah terpenuhi, membuktikan hasil yang

pertama.

Untuk membuktikan hasil kedua, dilakukan jika ∞→nw~ . Anggap hal itu

tidak dipenuhi. Kondisi dari Proposisi 3.2.1(a) telah dibuktikan, dan

)()( ′−∇= ww QM . Diasumsikan bahwa )(wQ mempunyai titik-titik stasioner

yang terisolasi, sehingga ini tetap untuk membuktikan kondisi dari Proposisi

3.2.1(b) untuk setiap ∗∗ ∈ Ww . Dengan versi terlokalisasi Teorema 16.8(ii) dari

Billingsley (1979; halaman 181-182), )(wM adalah dapat diturunkan secara

kontinyu untuk semua w dalam lℜ , diberikan Asumsi 3.2.1 dan 3.2.2, dengan

))(]))([()()(()( 2 wwwww tltttt fIfYffEM ∇⊗′−−∇′∇−=∇ ,

Lampiran 1. Lanjutan

178

dengan )vec(2 ff ∇∇≡∇ adalah suatu matriks turunan kedua yang berukuran

llp × . Suatu batasan yang seragam dari ),( tt XY memastikan ∞<∇ )(wM

untuk semua w . Batasan ini juga memastikan keberhinggaan (finiteness) dari *J , yang diasumsikan definit positif. Dengan demikian kondisi dari Proposisi

3.2.1(b) terpenuhi, dan dengan Proposisi 3.2.1(c) nw~ cenderung menuju suatu

minimum lokal dari )(wQ .


Eksistensi dari nw mengikuti karena untuk setiap realisasi dari tZ , nQ adalah

suatu fungsi kontinyu pada suatu himpunan kompak, K,2,1=n .

Diberikan dominasi dari l dan kekompakan dari W , seperti pada

Teorema 16.8(i) dari Billingsley (1979; halaman 181-182) bahwa Q adalah

kontinyu pada W . Diberikan dominasi dari l , kekompakan dari W , dan asumsi

tZ adalah IID, dengan mengikuti hukum seragam dari bilangan besar atau the

uniform law of large numbers, bahwa PsaQQnWw −→−∈ .. 0|)()(ˆ|sup ww . Pilih

suatu realisasi dari tZ agar supaya konvergensi ini terjadi.

Untuk realisasi ini, misalkan ˆ nw adalah suatu barisan yang memi-

nimisasi nQ , K,2,1=n . Karena W adalah kompak, maka ada suatu titik batas

Ww ∈O dan suatu sub barisan n′ sedemikian hingga On ww →′ˆ . Ini

mengikuti pertidaksamaan segitiga yaitu

≤−′′ |)(ˆ)ˆ(ˆ| 0ww QQ nn ε2|)()ˆ(||)ˆ()ˆ(ˆ| <−+− ′′′′O

nnnn QQQQ wwww ,

untuk sembarang 0>ε dan semua n′ cukup besar, diberikan suatu konvergensi

seragam dan kontinyuitas yang telah terbukti. Sekarang

=− )()( ww QQ O )](ˆ)ˆ(ˆ[)]ˆ(ˆ)([ wwww nnnnnO QQQQ ′′′′′ −+−

ε3)]()(ˆ[ ≤−+ ′ ww QQn

untuk sembarang 0>ε dan semua n′ cukup besar, karena )ˆ(ˆ)( nnO QQ ′′− ww

ε2≤ seperti yang telah terbukti, 0)(ˆ)ˆ(ˆ ≤−′′ ww nnn QQ melalui optimalisasi nw ′ˆ


179

dan ε<−′ )()(ˆ ww QQn melalui konvergensi seragam. Karena ε adalah sem-

barang, )()( ww QQ O ≤ , dan karena w adalah sembarang *Ww ∈O . Karena

ˆ nw adalah sembarang, maka setiap titik batas Ow dari suatu barisan adalah

termasuk dalam *W .

Sekarang anggap bahwa 0ˆinf *** →−

∈ww nWw

. Maka, ada suatu 0>ε

dan suatu sub barisan n′ sedemikian hingga ε≥−′*ˆ ww n untuk semua n′

dan ∗∗ ∈ Ww . Meski begitu ˆ n′w mempunyai suatu titik batas yang (melalui

argumen sebelumnya) harus termasuk dalam *W . Ini adalah suatu kontradiksi

dengan ε≥−′*ˆ ww n untuk semua n′ , sehingga 0ˆinf *

** →−∈

ww nWw.

Karena realisasi dari tZ dipilih dari suatu himpunan dengan probabilitas 1,

maka kesimpulan untuk bukti dari Teorema 3.2.2 mengikuti.


Aplikasikan Proposisi 3.3.1 untuk pembuktian teorema ini. Asumsi 3.2.1, 3.3.1,

dan 3.3.2 adalah cukup untuk Asumsi 3.2.1–3.2.3 dan dengan demikian juga

untuk syarat-syarat dari Proposisi 3.2.1(a). Karena ∗w diasumsikan ter-isolasi,

kondisi pertama dari Proposisi 3.2.1(b) terpenuhi. Kondisi-kondisi yang lain dari

Proposisi 3.2.1(b) terpenuhi dengan diberikan suatu asumsi definit positif pada ∗J dan Asumsi 3.2.1–3.2.3 (seperti yang diverifikasi pada pembuktian Teorema

3.2.1), dimana Asumsi 3.2.1, 3.3.1, dan 3.3.2 adalah cukup. Asumsi 3.2.1 dan

3.3.1 memastikan bahwa ∆<−′∇= |))(()(||),(| www tttt fYfZm a.s. untuk semua

w dalam W , dan kondisi yang dibutuhkan pada ∗λ ditentukan secara langsung.

Asumsi 3.2.1 dan 3.3.1 membolehkan pemakaian Teorema 16.8(i) dari Billingsley

(1979; halaman 181-182) untuk membuktikan kontinyuitas dari J pada suatu

persekitaran ∗w . Dengan demikian kondisi-kondisi pada Proposisi 3.3.1

terpenuhi.


180

Bukti: (Teorema 3.3.3, White 1989a)

Kurangi nw dengan ∗w dan kalikan dengan 2/1n , menghasilkan

nnnn MnMnn ~~)~()ˆ( 2/112/12/1 −∗∗ ∇−−=− wwww

)~(~~)~( 2/112/112/1 ∗−∗−∗ −∇∇−∇−−= wwww nnnnnn nMMMnMn &&

oleh suatu ekspansi nilai mean di sekitar ∗w , dengan ),( ∗∗ ⋅≡ wnn MM dan

nM&&∇ mempunyai baris-baris yang dievaluasi pada nilai-nilai yang berada di

suatu segmen yang berhubungan dengan nw~ dan ∗w . nM~∇ adalah nonsingular

a.s. (almost sure) sebagai konsekuensi dari ∗→ ww ..~ san dan

0),(),( ..→⋅∇−⋅∇ san MM ww secara seragam pada W , berimplikasi bahwa

0~ →∇−∇ ∗MM n a.s. dengan asumsi, ∗∇M adalah terhingga dan nonsingular.

Tulis kembali, menghasilkan

∗−∗∗ −∇=− nn MnMn 2/112/1 )ˆ( ww ∗−∗− ∇−∇− nn MnMM 2/111 )~(

)~()~( 2/11 ∗− −∇∇−+ ww nnn nMMI &&

)1(2/11pn oMnM +−∇= ∗−∗ .

Sekarang )1()~( 2/111pnn oMnMM =∇−∇ ∗−∗− , karena 0)~( ..11 →∇−∇

−∗− san MM

sebagai konsekuensi dari 0~ ..→∇−∇ ∗ san MM dan karena ∗

nMn 2/1 adalah

)1(pO diberikan bahwa ∗nMn 2/1 ),( ∗Ν→ B0d . Selanjutnya,

)1()~()~( 2/11pnnn onMM =−∇∇− ∗− wwI &&

diberikan suatu keberhinggaan dari ∗∇M , suatu fakta bahwa ∗∇→∇ MM san

..~

dan ∗∇→∇ MM san

..&& , dan suatu asumsi bahwa )1()~(2/1pn On =− ∗ww . Hal ini

mengikuti secara langsung [sebagai contoh, lihat Proposisi 2.3.14 di Bab II

sebelumnya atau Lemma 4.7 dan Corollary 4.24 dari White (1999; halaman 71

dan 74)] bahwa

),()ˆ(2/1 ∗∗ Ν→− C0ww dnn ,

dengan '11 ∗−∗∗−∗ ≡ ABAC , ∗∗ ∇≡ MA .


181

Bahwa ∗→ ww ..ˆ san mengikuti definisi dari nw dan suatu kenyataan

bahwa ∗→ ww ..~ san , ∗∇→∇ MM sa

n..~ , dan 0~ =→ ∗MM n a.s. Yang terakhir

dipenuhi karena 0)(),( ..→−⋅ san MM ww secara seragam pada W dan

0)( =∗wM . Dengan menggunakan Proposisi 2.11 dari White (1999; halaman

19), ∗→ CC ..~ san diberikan ∗→ AA ..~ sa

n dan ∗→ nsa

n BB ..~ , dengan

nn M~~∇≡A .

- 182 -

Lampiran 2 : Macro uji Terasvirta pada program R ## --------------------------------------------------------------- ## ## Uji Terasvirta untuk linearitas pada pemodelan time series ## Sumber : library(tseries) di R ## Author : A. Trapletti ## Modifikasi : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## --------------------------------------------------------------- terasvirta.test <- function(x, ...) UseMethod("terasvirta.test") terasvirta.test.ts <- function(x, lag = 1, type = c("Chisq", "F"), scale = TRUE, ...)

if(!is.ts(x)) stop("method is only for time series") if(NCOL(x) > 1) stop("x is not a vector or univariate time series") if(any(is.na(x))) stop("NAs in x") if(lag < 1) stop("minimum lag is 1") if(!missing(type) && !is.na(pmatch(type, "chisq"))) warning(paste("value `chisq' for `type' is deprecated,", "use `Chisq' instead")) type <- "Chisq" else type <- match.arg(type) DNAME <- deparse(substitute(x)) t <- length(x) if(scale) x <- scale(x) y <- embed(x, lag+1) xnam <- paste("y[,", 2:(lag+1), "]", sep="") fmla <- as.formula(paste("y[,1]~",paste(xnam,collapse= "+"))) rr <- lm(fmla) u <- residuals(rr) ssr0 <- sum(u^2) xnam2 <- NULL m <- 0 for(i in (1:lag)) for(j in (i:lag)) xnam2 <- c(xnam2,paste("I(y[,",i+1,"]*y[,",j+1,"])",sep="")) m <- m+1 xnam2 <- paste(xnam2,collapse="+") xnam3 <- NULL for(i in (1:lag)) for(j in (i:lag)) for(k in (j:lag))


183

xnam3 <- c(xnam3, paste("I(y[,", i+1, "]*y[,", j+1, "]*y[,", k+1, "])", sep="")) m <- m+1 xnam3 <- paste(xnam3,collapse="+") fmla <- as.formula(paste("u~",paste(paste(xnam,collapse= "+"), xnam2,xnam3,sep="+"))) rr <- lm(fmla) v <- residuals(rr) ssr <- sum(v^2) if(type == "Chisq") STAT <- t*log(ssr0/ssr) PVAL <- 1-pchisq(STAT,m) PARAMETER <- m names(STAT) <- "X-squared" names(PARAMETER) <- "df" save(PVAL, file = “tpc.Rdata”) else if(type == "F") STAT <- ((ssr0-ssr)/m)/(ssr/(t-lag-m)) PVAL <- 1-pf(STAT,m,t-lag-m) PARAMETER <- c(m,t-lag-m) names(STAT) <- "F" names(PARAMETER) <- c("df1","df2") save(PVAL, file = “tpf.Rdata”) else stop("invalid type") METHOD <- "Teraesvirta Neural Network Test" ARG <- c(lag,scale) names(ARG) <- c("lag","scale") structure(list(statistic = STAT, parameter = PARAMETER, p.value = PVAL, method = METHOD, data.name = DNAME, arguments = ARG), class = "htest")

- 184 -

Lampiran 3 : Macro uji White pada program R

## --------------------------------------------------------------- ## ## Uji White untuk linearitas pada pemodelan time series ## Sumber : library(tseries) di R ## Author : A. Trapletti ## Modifikasi : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## --------------------------------------------------------------- white.test <- function(x, ...) UseMethod("white.test") white.test.ts <- function(x, lag = 1, qstar = 2, q = 10, range = 4, type = c("Chisq","F"), scale = TRUE, ...)

if(!is.ts(x)) stop("method is only for time series") if(NCOL(x) > 1) stop("x is not a vector or univariate time series") if(any(is.na(x))) stop("NAs in x") if(lag < 1) stop("minimum lag is 1") if(!("package:stats" %in% search()) && !require("mva", quietly=TRUE)) stop("package", sQuote("mva"), "is needed. Stopping") if(!missing(type) && !is.na(pmatch(type, "chisq"))) warning(paste("value `chisq' for `type' is deprecated,", "use `Chisq' instead")) type <- "Chisq" else type <- match.arg(type) DNAME <- deparse(substitute(x)) t <- length(x) if(scale) x <- scale(x) y <- embed(x, lag+1) xnam <- paste("y[,", 2:(lag+1), "]", sep="") fmla <- as.formula(paste("y[,1]~",paste(xnam,collapse= "+"))) rr <- lm(fmla) u <- residuals(rr) ssr0 <- sum(u^2) max <- range/2 gamma <- matrix(runif((lag+1)*q,-max,max),lag+1,q) phantom <- (1+exp(-(cbind(rep(1,t-lag),y[,2:(lag+1)])%*%gamma)))^(-1) phantomstar <- as.matrix(prcomp(phantom,scale=TRUE)$x[,2:(qstar+1)]) xnam2 <- paste("phantomstar[,", 1:qstar, "]", sep="") xnam2 <- paste(xnam2, collapse="+") fmla <- as.formula(paste("u~",paste(paste(xnam,collapse= "+"), xnam2,sep="+"))) rr <- lm(fmla)


185

v <- residuals(rr) ssr <- sum(v^2) if(type == "Chisq") STAT <- t*log(ssr0/ssr) PVAL <- 1-pchisq(STAT,qstar) PARAMETER <- qstar names(STAT) <- "X-squared" names(PARAMETER) <- "df" save(PVAL, file = “wpc.Rdata”) else if(type == "F") STAT <- ((ssr0-ssr)/qstar)/(ssr/(t-lag-qstar)) PVAL <- 1-pf(STAT,qstar,t-lag-qstar) PARAMETER <- c(qstar,t-lag-qstar) names(STAT) <- "F" names(PARAMETER) <- c("df1","df2") save(PVAL, file = “wpf.Rdata”) else stop("invalid type") ARG <- c(lag,qstar,q,range,scale) names(ARG) <- c("lag","qstar","q","range","scale") METHOD <- "White Neural Network Test" structure(list(statistic = STAT, parameter = PARAMETER, p.value = PVAL, method = METHOD, data.name = DNAME, arguments = ARG), class = "htest")

- 186 -

Lampiran 4 : Macro Studi Simulasi 1000 kali untuk keenam model untuk uji Terasvirta dan uji White pada program R

## --------------------------------------------------------------- ## ## Macro studi simulasi 1000 kali untuk uji Terasvirta dan ## uji White pada keenam model data simulasi ## ## Author : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## ---------------------------------------------------------------

for (j in c(1:1000) ) n <- 400 x <- runif(400, -1, 1) x[1] <- 0.0 x[2] <- 0.0 x1 <- x x2 <- x x3 <- x x4 <- x x5 <- x x6 <- x for(i in (3:n)) e <- rnorm(1, sd=0.5) x1[i] <- 1.2*x1[i-1] - 0.6*x1[i-2] + e x2[i] <- x2[i-1] + e x3[i] <- 1.2*x3[i-1] - 0.6*x3[i-2] + e x4[i] <- 1.2*x4[i-1] - 0.6*x4[i-2] + (0.02 - 0.9*x4[i-1] + 0.795*x4[i-2]) / (1 + exp(-100*(x4[i-1] - 0.02))) + 0.1*e x5[i] <- 1.2*x5[i-1] - 0.6*x5[i-2] + (0.02 - 0.9*x5[i-1] + 0.795*x5[i-2]) * (1 - exp(-200*x5[i-1]*x5[i-1])) + 0.1*e x6[i] <- 6.5*x6[i-1]*exp(-0.25*x6[i-1]*x6[i-1]) + e x1 <- x1[201:400] x1 <- as.ts(x1) ## Data model 1 x2 <- x2[201:400] x2 <- as.ts(x2) ## Data model 2 x3 <- x3[201:400] x3[101] <- 5 x3 <- as.ts(x3) ## Data model 3 x4 <- x4[201:400] x4 <- as.ts(x4) ## Data model 4 x5 <- x5[201:400] x5 <- as.ts(x5) ## Data model 5 x6 <- x6[201:400] x6 <- as.ts(x6) ## Data model 6 wc <- white.test(x1,lag=2,type=c("Chisq")) wf <- white.test(x1,lag=2,type=c("F")) tc <- terasvirta.test(x1, lag=2, type=c("Chisq")) tf <- terasvirta.test(x1, lag=2, type=c("F"))


187

load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ") wc <- white.test(x2,lag=1,type=c("Chisq")) wf <- white.test(x2,lag=1,type=c("F")) tc <- terasvirta.test(x2, lag=1, type=c("Chisq")) tf <- terasvirta.test(x2, lag=1, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ") wc <- white.test(x3,lag=2,type=c("Chisq")) wf <- white.test(x3,lag=2,type=c("F")) tc <- terasvirta.test(x3, lag=2, type=c("Chisq")) tf <- terasvirta.test(x3, lag=2, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ") wc <- white.test(x4,lag=2,type=c("Chisq")) wf <- white.test(x4,lag=2,type=c("F")) tc <- terasvirta.test(x4, lag=2, type=c("Chisq")) tf <- terasvirta.test(x4, lag=2, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ") wc <- white.test(x5,lag=2,type=c("Chisq")) wf <- white.test(x5,lag=2,type=c("F")) tc <- terasvirta.test(x5, lag=2, type=c("Chisq")) tf <- terasvirta.test(x5, lag=2, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ")


188

wc <- white.test(x6,lag=1,type=c("Chisq")) wf <- white.test(x6,lag=1,type=c("F")) tc <- terasvirta.test(x6, lag=1, type=c("Chisq")) tf <- terasvirta.test(x6, lag=1, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ")

- 189 -

Lampiran 5 : Contoh hasil jalannya macro pada keenam model

§ Run program R R : Copyright 2002, The R Development Core Team Version 1.5.0 (2002-04-29) R is free software and comes with ABSOLUTELY NO WARRANTY. You are welcome to redistribute it under certain conditions. Type `license()' or `licence()' for distribution details. R is a collaborative project with many contributors. Type `contributors()' for more information. Type `demo()' for some demos, `help()' for on-line help, or `help.start()' for a HTML browser interface to help. Type `q()' to quit R. [Previously saved workspace restored]

§ Setelah ada di program R

1. Ketik dan enter ð library(tseries) 2. Jalankan macro uji Terasvirta 3. Jalankan macro uji White

> library(tseries) > ## ------------------------------------------------------------- > ## Uji Terasvirta untuk linearitas pada pemodelan time series > ## Sumber : library(tseries) di R > ## Author : A. Trapletti > ## Modifikasi : Suhartono, S.Si., M.Sc. > ## ------------------------------------------------------------- > terasvirta.test <- function(x, ...) UseMethod("terasvirta.test") > terasvirta.test.ts <- + function(x, lag = 1, type = c("Chisq", "F"), scale = TRUE, ...) … + > > ## ------------------------------------------------------------- > ## Uji White untuk linearitas pada pemodelan time series > ## Sumber : library(tseries) di R > ## Author : A. Trapletti > ## Modifikasi : Suhartono, S.Si., M.Sc. > ## ------------------------------------------------------------- > white.test <- function(x, ...) UseMethod("white.test") > white.test.ts <- … + >


190

§ Jalankan studi simulasi (berikut contoh untuk hasil dari keenam model dengan

hanya 1 kali pengulangan)

Keterangan : Angka yang keluar di akhir macro adalah output yang berupa nilai p-value untuk setiap uji White dan uji Terasvirta, secara berurutan (satu kali running menghasilkan 24 angka) adalah uji White dengan statistik Chi-squares, F dan uji Terasvirta dengan statistik Chi-squares dan F untuk model 1, 2, ..., 6 secara berurutan.

> for (j in c(1:1) ) + + n <- 400 + x <- runif(400, -1, 1) + x[1] <- 0.0 + x[2] <- 0.0 + x1 <- x + x2 <- x + x3 <- x + x4 <- x + x5 <- x + x6 <- x + for(i in (3:n)) + e <- rnorm(1, sd=0.5) + x1[i] <- 1.2*x1[i-1] - 0.6*x1[i-2] + e + x2[i] <- x2[i-1] + e + x3[i] <- 1.2*x3[i-1] - 0.6*x3[i-2] + e + x4[i] <- 1.2*x4[i-1] - 0.6*x4[i-2] + (0.02 - 0.9*x4[i-1] + + 0.795*x4[i-2]) / (1 + exp(-100*(x4[i-1] - 0.02))) + + 0.1*e + x5[i] <- 1.2*x5[i-1] - 0.6*x5[i-2] + (0.02 - 0.9*x5[i-1] + + 0.795*x5[i-2]) * (1 - exp(-200*x5[i-1]*x5[i-1])) + + 0.1*e + x6[i] <- 6.5*x6[i-1]*exp(-0.25*x6[i-1]*x6[i-1]) + e + … + wc <- white.test(x6,lag=1,type=c("Chisq")) + wf <- white.test(x6,lag=1,type=c("F")) + tc <- terasvirta.test(x6, lag=1, type=c("Chisq")) + tf <- terasvirta.test(x6, lag=1, type=c("F")) + load("wpc.Rdata") + cat(PVAL*1, " ") + load("wpf.Rdata") + cat(PVAL*1, " ") + load("tpc.Rdata") + cat(PVAL*1, " ") + load("tpf.Rdata") + cat(PVAL*1, " ") + 0.7210663 0.8661705 0.7357942 0.7527205 0.04703406 0.3828929

0.2310951 0.2362294 4.1301e-06 1.133555e-05 1.736178e-08 3.615592e-08 0.1765474 0.3807794 0.0003243584 0.0004675579 0.04960447 0.01884139 0.001494970 0.002028959 0 0 0 0 >

>

- 191 -

Lampiran 6 : Macro NNETM yang digunakan untuk mendapatkan model FFNN pada program S-plus

## --------------------------------------------------------------- ## ## Macro NNETM, modifikasi dari NNET, yang digunakan untuk ## mendapatkan model FFNN pada peramalan data time series ## ## Sumber : http://www.stat.lsa.umich.edu/~faraway/ ## Author : J. Faraway and C. Chatfield (1998) ## Modifikasi : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## ---------------------------------------------------------------

nnetm <- function(x,y,size,retry=1,maxit=2000, trace=F,nntrace=F,...) x <- x y <- y HUGE <- 1e37 minval <- HUGE rang <- 1/max(abs(x)) for(i in 1:retry) g <- nnet(x,y,size=size,rang=rang,linout=F,maxit=maxit, softmax=T,trace=nntrace,...) if (trace) if (min(eigen(nnet.Hess(g,x,y))$val) < 0) cat("Try ",i,": SS=",round(g$val,3),"(Possible non-minimum)\n") else cat("Try ",i,": SS=",round(g$val,3),"\n") if ( g$val < minval) gbest <- g minval <- g$val if ( minval == HUGE) error("Minimum not found") gbest$x <- x gbest$y <- y if(trace) cat ("Minimum SS = ",round(gbest$val,3)," in ",retry, "attempts\n") structure(gbest, class = c("nnts","nnet")) print.nnetm <- function(net) if(!inherits(net, "nnetm")) stop("Not legitimate a neural net/ time series fit") if(length(net) == 10) net$softmax <- F

http://www.stat.lsa.umich.edu/~faraway/


192

cat("a ", net$n[1], "-", net$n[2], "-", net$n[3], " network", sep = "") cat(" with", length(net$wts), "weights\n") cat("options were -") tconn <- diff(net$nconn) if(tconn[length(tconn)] > net$n[2] + 1) cat(" skip-layer connections ") if(net$decay > 0) cat(" decay=", net$decay, sep = "") cat("\n") summary.nnetm <- function(net) if(!inherits(net, "nnetm")) stop("Not legitimate a neural net/time series fit") if(length(net) == 10) net$softmax <- F cat("a ", net$n[1], "-", net$n[2], "-", net$n[3], " network", sep = "") cat(" with", length(net$wts), "weights\n") tconn <- diff(net$nconn) if(tconn[length(tconn)] > net$n[2] + 1) cat(" skip-layer connections ") if(net$decay > 0) cat(" decay=", net$decay, sep = "") cat("\n") cat("Unit 0 is constant one input\n") cat("Input units: ",paste("y ",net$y,"=",1:net$n[1],",", sep=""),"\n") cat("Hidden units are ",(net$n[1]+1):(net$n[1]+net$n[2]),"\n") cat("Output unit is",sum(net$n),"\n\n") wts <- format(round(net$wts, 4)) names(wts) <- apply(cbind(net$conn, rep(1:net$nunits - 1, tconn)), 1, function(x) paste(x, collapse = "->")) print(wts, quote = F) cat("Sum of squares is ",format(net$val),"\n") n <- length(net$fit) p <- length(net$wts) ft <- n*log(net$val/n) cat("AIC :",format(ft+2*p), ", SBC :",format(ft+p*log(n)), ", BIC :",format(ft+p+p*log(n)), ", MSE :",format(net$val/(n-p)), ", residual se :",format(sqrt(net$val/(n-p))),"\n") invisible()

- 193 -

Lampiran 7 : Macro yang digunakan untuk mendapatkan model FFNN terbaik pada program S-plus melalui inferensia R2

incremental dan uji Wald

## --------------------------------------------------------------- ## ## Macro yang digunakan untuk mendapatkan model FFNN terbaik ## pada peramalan data time series melalui inferensia R2incremental ## dan uji Wald ## ## Author : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## ---------------------------------------------------------------

library(nnet) # Jalankan command-command ini untuk addNnetMenus() # memulai bekerja NNET di S-plus library(MASS) addMassMenus()

## --------------------------------------------------------------- ## Jalankan macro nnetm (NNET modifikasi), yang terdiri dari nnetm, print.nnetm, summary.nnetm) ## --------------------------------------------------------------- ## Data simulasi, dengan nama file ESTAR1, sudah tersimpan di S-plus

y.all <- cbind(estar1[,1]) y1.all <- cbind(estar1[,2]) y2.all <- cbind(estar1[,3]) y3.all <- cbind(estar1[,4]) y4.all <- cbind(estar1[,5]) y5.all <- cbind(estar1[,6]) y6.all <- cbind(estar1[,7]) y.train <- cbind(y.all[1:100]) # Data training y.test <- cbind(y.all[101:120]) # Data testing y1.train <- cbind(y1.all[1:100]) y1.test <- cbind(y1.all[101:120]) y2.train <- cbind(y2.all[1:100]) y2.test <- cbind(y2.all[101:120]) y3.train <- cbind(y3.all[1:100]) y3.test <- cbind(y3.all[101:120]) y4.train <- cbind(y4.all[1:100]) y4.test <- cbind(y4.all[101:120]) y5.train <- cbind(y5.all[1:100]) y5.test <- cbind(y5.all[101:120]) y6.train <- cbind(y6.all[1:100]) y6.test <- cbind(y6.all[101:120]) x.train <- cbind(y1.train,y2.train,y3.train,y4.train,y5.train,y6.train) x.test <- cbind(y1.test,y2.test,y3.test,y4.test,y5.test,y6.test) ## ---------------------------------------------------------------


194

## Program NNETM dengan membagi data menjadi data training ## dan data testing atau out-sample forecast ## Data ESTAR1 dengan input lag 1,2,...,6 ## ## --------------------------------------------------------------- hasil.train <- nnetm(x.train, y.train, size=2, retry=50, linout=T, maxit=10000, trace=T, abstol=1.0e-6, reltol=1.0e-6) summary(hasil.train) # Training output y.hat <- predict.nnet(hasil.train, x.train) # Prediksi training rxy.train <- cor(y.train,y.hat) # Korelasi y Vs y.hat rxy2.train <- rxy.train*rxy.train er.train <- y.train - y.hat # Residual training sse.train <- sum(er.train*er.train) # Nilai SSE training mse.train <- sse.train/100 # Nilai MSE training rmse.train <- sqrt(mse.train) # Nilai RMSE training mae.train <- sum(abs(er.train))/100 mape.train <- sum(abs(er.train/y.train))/100*100 aic <- (100*log(mse.train))+(2*49) # 49 = jumlah parameter sic <- (100*log(mse.train))+(49*log(100)) R2.inc <- rxy2.train-0.987999 # 0.987999 = R2 sebelumnya mhess <- nnet.Hess(hasil.train, x.train, y.train) invhess <- solve(mhess) varb<-0.267511*invhess # Matriks var-cov(b) crit.train <- cbind(mse.train,rmse.train,mae.train,mape.train) r.train <- cbind(aic,sic,rxy.train,rxy2.train,R2.inc) crit.train r.train y.fore <- predict.nnet(hasil.train,x.test) # Prediksi testing rxy.out <- cor(y.test,y.fore) rxy2.out <- rxy.out*rxy.out er.out <- y.test - y.fore # Residual testing sse.out <- sum(er.out*er.out) # Nilai SSE testing mse.out <- sse.out/20 # Nilai MSE testing rmse.out <- sqrt(mse.out) # Nilai RMSE testing mae.out <- sum(abs(er.out))/20 mape.out <- sum(abs(er.out/y.test))/20*100 crit.out <- cbind(mse.out,rmse.out,mae.out,mape.out) r.out <- cbind(rxy.out,rxy2.out) crit.out r.out ## Aktual, ramalan, dan error pada training dan testing compar.train <- cbind(y.train,y.hat,er.train) compar.test <- cbind(y.test,y.fore,er.out) compar.train compar.test

- 195 -

Lampiran 8 : Data-data empiris

§ Data inflasi Indonesia, periode Januari 1999 – April 2005 (Petunjuk: baca mulai dari kiri ke kanan dan seterusnya)

1.16 1.31 0.57 1.69 0.49 0.16 0.71 0.32 0.38 0.64 0.42 0.79 2.16 1.71 -0.61 0.78 0.06 -0.07 0.68 0.27 -0.04 0.41 0.57 0.55 1.03 1.05 -0.12 0.56 0.19 -0.17 0.66 0.88 1.29 1.99 1.65 1.68 6.88 12.76 5.49 4.70 5.24 4.64 8.56 6.30 3.75 -0.27 0.08 1.33 2.97 1.26 -0.18 -0.68 -0.28 -0.34 -1.05 -0.93 -0.68 0.06 0.25 1.73 1.32 0.07 -0.45 0.56 0.84 0.50 1.28 0.51 -0.06 1.16 1.32 1.94 0.33 0.87 0.89 0.46 1.13 1.67 2.12 -0.21 0.64 0.68 1.71 1.62 1.99 1.50 -0.02 -0.24 0.80 0.36 0.82 0.29 0.53 0.54 1.85 1.20 0.80 0.20 -0.23 0.15 0.21 0.09 0.03 0.84 0.36 0.55 1.01 0.94 0.57 -0.02 0.36 0.97 0.88 0.48 0.39 0.09 0.02 0.56 0.89 1.04 1.43 -0.17 1.91 0.34

§ Data Airline, periode Januari 1949 – Desember 1960 (Petunjuk: baca mulai dari kiri ke kanan dan seterusnya)

112 118 132 129 121 135 148 148 136 119 104 118 115 126 141 135 125 149 170 170 158 133 114 140 145 150 178 163 172 178 199 199 184 162 146 166 171 180 193 181 183 218 230 242 209 191 172 194 196 196 236 235 229 243 264 272 237 211 180 201 204 188 235 227 234 264 302 293 259 229 203 229 242 233 267 269 270 315 364 347 312 274 237 278 284 277 317 313 318 374 413 405 355 306 271 306 315 301 356 348 355 422 465 467 404 347 305 336 340 318 362 348 363 435 491 505 404 359 310 337 360 342 406 396 420 472 548 559 463 407 362 405 417 391 419 461 472 535 622 606 508 461 390 432


196

§ Data produksi minyak di tiga lokasi pengeboran, 60 data pengamatan (Petunjuk: Data ini sudah dilakukan pemrosesan awal data. Baca mulai dari kiri ke

kanan dan seterusnya)

§ Data pada lokasi 1 -0.054 0.330 0.424 -0.523 -1.491 -0.246 0.312 0.506 1.603 0.630 2.099 0.502 0.641 0.336 0.530 0.706 0.093 0.320 0.306 1.402 1.662 3.543 1.325 0.990 0.673 -0.303 -0.238 -0.203 -0.333 0.005 0.026 -0.605 0.481 0.340 0.892 0.510 1.135 0.197 -0.205 0.588 -0.160 -1.248 -0.599 -0.076 -1.457 -1.806 -1.843 -1.026 -0.699 -0.538 -0.989 -1.122 -1.436 -0.785 -0.225 -1.028 -1.014 -1.050 -0.713 -1.091 § Data pada lokasi 2 0.343 -1.192 -1.351 -0.969 -0.699 0.828 -0.199 0.455 0.361 0.381 -0.164 -0.981 -0.719 -1.318 -0.653 -0.067 1.453 1.788 2.486 3.109 1.502 -0.183 0.832 1.599 1.442 0.457 0.599 -0.335 0.376 0.493 -0.813 0.968 -0.194 -0.529 -0.252 -1.130 -0.652 0.914 0.074 0.240 0.750 0.850 0.224 -0.016 1.506 -0.467 -1.038 -0.776 -0.335 -0.606 -1.132 -0.853 -1.503 -1.203 -1.018 -0.840 -0.756 -0.912 0.074 -0.249 § Data pada lokasi 3 2.350 1.615 1.509 1.279 0.760 1.365 1.358 2.259 0.554 0.475 1.003 0.720 0.589 0.625 2.055 1.793 2.328 0.728 0.677 0.512 -0.080 -0.313 -0.299 -0.379 0.042 -0.325 -0.259 -0.188 -0.428 -0.409 -0.372 -0.409 -0.544 -1.099 -0.240 -0.855 -0.237 -0.516 -0.318 -0.533 -0.612 -0.644 -1.031 -0.830 -1.024 0.204 -1.144 -1.356 -1.479 -0.470 -0.996 -1.072 -0.822 -0.680 -0.688 -0.734 -0.842 -0.795 -0.715 -1.063

- - 197

DAFTAR RIWAYAT HIDUP

Nama Lengkap : Suhartono, S.Si., M.Sc. Jenis kelamin : Laki-laki Tempat dan tanggal lahir : Kemiri, 29 September 1971 Pangkat / Gol. / NIP : Penata / IIIC / 132 135 220 Jabatan Fungsional : Lektor

RIWAYAT PENDIDIKAN TINGGI : § Sarjana Statistika, FMIPA, Institut Teknologi Sepuluh Nopember, 1995. § Master of Science in Statistics, University of Manchester Institute of

Science and Technology (UMIST), UK, 1998.

RIWAYAT PEKERJAAN : § Dosen tetap di Jurusan Statistika, FMIPA, Institut Teknologi Sepuluh

Nopember, sejak 1995 sampai sekarang.

PUBLIKASI 4 TAHUN TERAKHIR (SELAMA MENGIKUTI PROGRAM S3) :

§ Jurnal Ilmiah Internasional 1. Suhartono and Subanar (2006). The Optimal Determination of Space

Weight in GSTAR Model by using Cross-correlation Inference. JOURNAL OF QUANTITATIVE METHODS: Journal Devoted to The Mathematical and Statistical Application in Various Fields, Vol. 2, No. 2, pp. 45-53. (ISSN: 1693-5098)

2. Suhartono, Subanar and Guritno, S. (2006). Model Selection in Neural Networks by Using Inference of R2

Incremental, PCA, and SIC Criteria for Time Series Forecasting, JOURNAL OF QUANTITATIVE METHODS: Journal Devoted to The Mathematical and Statistical Application in Various Fields, Vol. 2, No. 1, pp. 41-57. (ISSN: 1693-5098)

§ Jurnal Ilmiah Nasional

1. Suhartono and Subanar (2007). Some Comments on the Theorem Providing Stationarity Condition for GSTAR Models in the Paper by Borovkova et al. Journal of The Indonesian Mathematical Society (MIHMI), Vol. 13, No. 1, pp. 44-52. (ISSN: 0854-1380)

(Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)

Daftar Riwayat Hidup 198

2. Suhartono (2006). Calendar Variation Model for Forecasting Time Series Data with Islamic Calendar Effect. Jurnal Matematika, Sains, & Teknologi, Vol. 7, No. 2, hal. 85-94. (ISSN: 1411-1934)

3. Subanar dan Suhartono (2006). Uji linearitas tipe Lagrange Multiplier dengan ekspansi Taylor untuk deteksi hubungan nonlinear pada data time series, Journal of the Indonesian Mathematical Society (MIHMI), Vol. 12, No. 1, hal. 17-32. (ISSN: 0854-1380)


4. Suhartono and Subanar (2006). The Effect of Decomposition Method as Data Preprocessing on Neural Networks Model for Forecasting Trend and Seasonal Time Series. JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 9, No. 2, pp. 27-41. (Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)

5. Suhartono (2005). Neural Networks, ARIMA and ARIMAX Models for Forecasting Indonesian Inflation. JURNAL WIDYA MANAJEMEN & AKUNTANSI, Vol. 5, No. 3, pp. 45-65.

(Terakreditasi: SK Dirjen Dikti No. 23a/DIKTI/Kep./2004)

6. Suhartono, Subanar and Guritno, S. (2005). A Comparative Study of Forecasting Models for Trend and Seasonal Time Series: Does Complex Model Always Yield Better Forecast than Simple Models. JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 7, No. 1, pp. 27-41.


7. Suhartono (2004). Evaluasi pembentukan model VARIMA dan STAR untuk peramalan data deret waktu dan lokasi. Jurnal Matematika Integratif, Vol. 3, No. 2, hal. 45-56. (ISSN: 1412-6184)

8. Suhartono (2007). Teori dan Aplikasi Model Intervensi Fungsi Pulse. Diterima untuk dipublikasikan pada di Jurnal MatStat (Terakreditasi) edisi Juli 2007, Universitas Bina Nusantara.

§ Seminar Internasional 1. Suhartono, Subanar and Guritno, S., “Model Building in Neural

Networks for Time Series Forecasting by Using Inference of R2 Incremental and SIC Criterion”, Proceeding of The 2nd Information and Communication Technology Seminar (ICTS), ITS, Surabaya, August 2006, pp. 408-411. (ISSN: 1858-1633)


2. Suhartono and Subanar, “The Impact of Linearity test on Forecasting Indonesian Inflation by Using Neural Networks”, Proceeding of the International Conference on Mathematics and Statistics (ICOMS), Bandung Islamic University, Bandung, July 2006, pp. 565-574.

(ISBN: 978-979-16363-0-8)

3. Atok, R.M. and Suhartono, “Model Selection in Neural Networks for Calibration by using Incremental Contribution Inference”, Proceeding of the International Conference on Mathematics and Statistics (ICOMS), Bandung Islamic University, Bandung, July 2006, pp. 225-228.

(ISBN: 978-979-16363-0-8)

4. Suhartono and Subanar, “The Optimal Determination of Space Weight in GSTAR Model by using Crosscorrelation Inference”, Proceeding of The 2nd IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Universiti Sains Malaysia, June 2006.

5. Subanar and Suhartono, “Model Selection in Neural Networks by using Inference of R2 incremental and Principal Component Analysis for Time Series Forecasting”, Presented at The 2nd IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Universiti Sains Malaysia, June 2006.

6. Suhartono and Subanar, “Modeling of Financial Data by Using Feed-forward Neural Networks”, Proceeding of the International Conference on Applied Mathematics (ICAM05), ITB, Bandung, August 2005.

7. Suhartono, Subanar and Guritno, S., “The Impact of Data Preproces-sing on Feedforward Neural Networks Model For Forecasting Trend and Seasonal Time Series”, Proceeding of the International Conference on Applied Mathematics (ICAM05), ITB, Bandung, August 2005.

8. Subanar and Suhartono, “Monte Carlo Simulation Study of The Neural Network Linearity Test for Time Series”, Proceeding of the Fourth Asian Mathematical Conference (AMC2005), National University of Singapore, 20-23 July 2005.

9. Suhartono, Subanar and Rezeki, S., “Feedforward Neural Networks Model for Forecasting Trend and Seasonal Time Series”, Proceeding of The 1st IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia, 13-15 June 2005, pp. 425-434. (ISBN: 979 458 230 - 1)

10. Suhartono, Rezeki, S., Subanar and Guritno, S., “Optimization of Backpropagation Algorithm of Feedforward Neural Networks for


Regression and Time Series Modeling”, Proceeding of The 1st IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia, 13-15 June 2005, pp. 415-434. (ISBN: 979 458 230 - 1)

11. Rezeki, S., Subanar, Guritno, S. and Suhartono, “Empirical Study to Compare Backpropagation Learning Optimization Methods for Polychotomous Data”, Proceeding of The 1st IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia, 13-15 June 2005, pp. 407-414. (ISBN: 979 458 230 - 1)

12. Suhartono and Subanar, “The Neural Network Linearity Test for Time Series Modeling”, Proceeding of the International Conference on Statistics and Mathematics and Its Applications in the Development of Science and Technology, Bandung Islamic University, Bandung, 4-6 October 2004, pp. 217-222. (ISBN: 979-99168-0-1)

§ Seminar Nasional 1. Suhartono dan Atok, R.M., “Pemilihan bobot lokasi yang optimal pada

model GSTAR”, Prosiding Konferensi Nasional Matematika XIII, Universitas Negeri Semarang, 24-27 Juli 2006, hal. 571-580. (ISBN: 979-704-457-2)

2. Suhartono dan Atok, R.M., “Perbandingan antara model VARIMA dan GSTAR untuk peramalan data deret waktu dan lokasi”, Prosiding Seminar Nasional Statistika VII, ITS, Surabaya, 2005.

3. Suhartono, Subanar dan Guritno, S., “Uji Linearitas untuk Deteksi Hubungan Nonlinear pada Model Regresi”, Prosiding Seminar Nasional Matematika dan Informatika, Universitas Sebelas Maret, Surakarta, 7 Mei 2005, hal. 90-99. (ISBN: 979-99529-0-5)

4. Suhartono dan Putra, I.N.A.W.W., “Dampak Tragedi Bom Bali terhadap Tingkat Hunian Kamar Hotel Berbintang Lima di Bali (Studi Aplikasi Model Intervensi pada Sektor Pariwisata)”, Prosiding Konferensi Nasional Matematika XII, Universitas Udayana, Bali, 23-27 Juli 2004, hal. 532-542. (ISBN: 979-99592-0-9)

5. Zuhdi, A.Y. dan Suhartono, “Manfaat Penggunaan Diagram Venn dalam Pembelajaran Model Regresi dan Autoregresi”, Prosiding Konferensi Nasional Matematika XII, Universitas Udayana, Bali, 23-27 Juli 2004, hal. 532-542. (ISBN: 979-99592-0-9)

feedforward neural networks untuk pemodelan...

Documents