feedforward neural networks untuk pemodelan...
TRANSCRIPT
FEEDFORWARD NEURAL NETWORKS UNTUK PEMODELAN RUNTUN WAKTU
OLEH :
SUHARTONO
UNIVERSITAS GADJAH MADA YOGYAKARTA
2007
FEEDFORWARD NEURAL NETWORKS UNTUK PEMODELAN RUNTUN WAKTU
Disertasi untuk memperoleh Derajat Doktor dalam Ilmu Matematika pada
Universitas Gadjah Mada
Dipertahankan di hadapan Dewan Penguji Sekolah Pascasarjana
Universitas Gadjah Mada
Pada tanggal: 25 September 2007
oleh
Suhartono
Lahir
di Malang, 29 September 1971
iii
Prof. Drs. H. Subanar, Ph.D. Promotor
Prof. Drs. Suryo Guritno, M.Stat., Ph.D. Ko promotor
iv
PERNYATAAN PROMOVENDUS
Dengan ini saya menyatakan bahwa dalam Disertasi ini tidak terdapat
karya yang pernah diajukan untuk memperoleh gelar kesarjanaan di suatu
Perguruan Tinggi, dan sepanjang pengetahuan saya juga tidak terdapat karya
atau pendapat yang pernah ditulis atau diterbitkan oleh orang lain, kecuali yang
secara tertulis diacu dalam naskah ini dan disebutkan dalam daftar pustaka.
Yogyakarta, 27 September 2007
Yang menyatakan,
Suhartono
v
When the Lord created the world and people to live in it − an enterprise which, according to modern science, took a very long time − I could well imagine that He reasoned with Himself as follows: “If I make everything predictable, these human beings, whom I have endowed with pretty good brains, will undoubtedly learn to predict everything, and they will thereupon have no motive to do anything at all, because they will recognize that the future is totally determined and cannot be influenced by any human action. On the other hand, if I make everything unpredictable, they will gradually discover that there is no rational basis for any decision whatsoever and, as in the first case, they will thereupon have no motive to do anything at all. Neither scheme would make sense. I must therefore create a mixture of the two. Let some things be predictable and let others be unpredictable. They will then, amongst many other things, have the very important task of finding out which is which.”
Small Is Beautiful E. F. SCHUMACHER
Untuk :
Istriku tercinta Siti Azizah, Anak-anakku tersayang
Alivia Kirana Hartonoputri , Vanissa Farhania Hartonoputri
vi
PRAKATA
Dengan Nama Allah Yang Maha Pengasih lagi Maha Penyayang.
Puji syukur kepada Tuhan Yang Maha Kuasa atas segala rahmat dan
karunia yang telah dilimpahkan, sehingga penulisan disertasi dengan judul
“FEEDFORWARD NEURAL NETWORKS UNTUK PEMODELAN RUNTUN WAKTU”
dapat terselesaikan dengan baik. Disertasi ini disusun untuk memenuhi sebagian
persyaratan guna memperoleh derajat Doktor dalam ilmu Matematika, Program
Pasca Sarjana Universitas Gadjah Mada.
Pada kesempatan ini, penulis mengucapkan terima kasih yang sedalam-
dalamnya kepada:
1. Prof. Drs. H. Subanar, Ph.D. dan Prof. Drs. Suryo Guritno, M.Stat., Ph.D.
sebagai Tim Pembimbing Program S3 Jurusan Matematika UGM, yang telah
membimbing, memberikan arahan dan dorongan selama penelitian dan
penulisan disertasi.
2. Tim Penilai dan Tim Penguji yang memberikan kritik dan saran untuk
penyempurnaan materi dan penulisan disertasi.
3. Dr. Toni Bakhtiar, S.Si., M.Sc. dari Jurusan Matematika, Institut Pertanian
Bogor, yang selalu memberikan bantuan kepustakaan khususnya soft journal
dari University of Tokyo.
4. Rektor Institut Teknologi Sepuluh Nopember dan Direktorat Jendral
Pendidikan Tinggi yang telah memberikan kesempatan dan pendanaan untuk
S3 kepada penulis.
5. Istri dan anak-anak tercinta, Alivia dan Vanissa, yang dengan sabar selalu
memberikan dukungan sampai disertasi ini dapat terselesaikan. Nenek,
bapak dan ibu yang selalu mendoakan kelancaran studi penulis.
vii
6. Drs. Brodjol Sutijo S.U., M.Si., Dra. Sri Rezeki, M.Si., Dra. Dhoriva Urwatul
Wutsqa, M.Si., dan Dra. Ema Carnia, M.Si., sebagai kandidat Doktor
Matematika yang telah menjadi rekan seperjuangan penulis selama
menempuh S3.
7. Semua pihak yang telah memberikan bantuan dalam penulisan disertasi ini.
Semoga disertasi ini memberikan manfaat, khususnya bagi per-
kembangan ilmu statistika dan umumnya bagi para pembaca.
Yogyakarta, 27 September 2007
Penulis,
Suhartono
viii
DAFTAR ISI
hal.
JUDUL, NAMA, TAHUN ............................................................................. i
DERAJAT .................................................................................................... ii
PERSETUJUAN .......................................................................................... iii
PERNYATAAN PROMOVENDUS .............................................................. iv
PERSEMBAHAN ........................................................................................ v
PRAKATA ................................................................................................... vi
DAFTAR ISI ................................................................................................ viii
ARTI LAMBANG DAN SINGKATAN .......................................................... xi
DAFTAR GAMBAR ..................................................................................... xiv
DAFTAR TABEL ......................................................................................... xvi
INTISARI ..................................................................................................... xvii
ABSTRACT ................................................................................................. xix
BAB I PENDAHULUAN ............................................................................. 1
1.1 Latar Belakang ............................................................................ 1
1.2 Perumusan Masalah ................................................................... 5
1.3 Batasan Penelitian ...................................................................... 6
1.4 Tujuan Penelitian ........................................................................ 7
1.5 Tinjauan Pustaka ........................................................................ 7
1.5.1 Konsep Dasar pada Analisis Runtun Waktu ................... 9
1.5.2 Neural Networks untuk Analisis Runtun Waktu .............. 11
1.5.3 Outline Disertasi ……………………………….................. 16
BAB II ANALISIS RUNTUN WAKTU ......................................................... 18
2.1 Proses Autoregressive-Moving Average (ARMA) ...................... 18
2.2 Estimasi Parameter Model ARMA .............................................. 22
2.2.1 Estimasi Yule-Walker ..................................................... 22
2.2.2 Estimasi Maximum Likelihood dan Least Squares ......... 24
2.3 Teori Asimtotis ............................................................................ 27
ix
2.3.1 Konvergen Hampir Pasti (Almost Sure Convergence) … 28
2.3.2 Konvergen dalam Probabilitas ........................................ 28
2.3.3 Konvergen dalam Mean ke r, r > 0 ................................ 32
2.3.4 Konvergen dalam Distribusi ............................................ 32
2.3.5 Teorema Limit Pusat dan Hasil-hasil yang Berkaitan ..... 36
2.4 Sifat Normalitas Asimtotis Estimator Model ARMA .................... 39
2.4.1 Sifat Estimator Yule-Walker ............................................ 39
2.4.2 Sifat Estimator Maximum Likelihood dan Least Squares 41
BAB III FEED FORWARD NEURAL NETWORKS .................................... 44
3.1 Algoritma Backpropagation ........................................................ 47
3.2 Konsistensi Estimator Backpropagation ..................................... 54
3.3 Sifat Normalitas Asimtotis Estimator Backpropagation .............. 59
3.4 Uji Hipotesa untuk Parameter Model Neural Networks .............. 64
BAB IV FFNN UNTUK PERAMALAN RUNTUN WAKTU ......................... 68
4.1 Uji Nonlinearitas pada Data Runtun Waktu ................................ 69
4.1.1 Penurunan Uji Nonlinearitas Tipe Lagrange Multiplier
(LM) dengan Ekspansi Taylor ........................................ 69
4.1.2 Desain Kajian Terapan Uji Nonlinearitas Tipe Lagrange
Multiplier (LM) dengan Ekspansi Taylor ......................... 77
4.1.3 Hasil Kajian Terapan Uji Nonlinearitas Tipe Lagrange
Multiplier (LM) dengan Ekspansi Taylor ......................... 82
4.2 Prosedur Pembentukan FFNN untuk Peramalan Runtun Waktu 83
4.2.1 Kontribusi Penambahan melalui R2 ................................ 84
4.2.2 Inferensia Statistik dari Kontribusi Penambahan R2 ....... 85
4.2.3 Algoritma Pembentukan Model FFNN: Implementasi
Uji Nonlinearitas, Inferensia Statistik R2incremental dan
Uji Wald ........................................................................... 90
BAB V HASIL EMPIRIS ............................................................................. 94
5.1 Pembentukan FFNN melalui Inferensia R2incremental dan uji Wald .. 95
5.1.1 Hasil Prosedur Backward versi Kaashoek dan Van Dijk .. 95
x
5.1.2 Hasil Prosedur Forward melalui Uji R2incremental untuk
Penentuan Jumlah Unit di Lapis Tersembunyi dan Unit
Input yang Optimal ......................................................... 98
5.1.3 Hasil Prosedur Backward dengan Uji Wald untuk
Pemilihan Unit Input yang Optimal ................................ 101
5.2 Perbandingan Ketepatan Ramalan antara FFNN dan Model
Runtun Waktu Univariat Klasik ................................................... 102
5.2.1 Hasil Perbandingan pada Kasus Inflasi Indonesia ......... 102
5.2.2 Hasil Perbandingan pada Airline Data ............................ 104
5.3 Efek Pemrosesan Awal Data terhadap Ramalan FFNN …......... 107
5.4 Aplikasi FFNN untuk Peramalan Runtun Waktu Multivariat ....... 110
5.4.1 Evaluasi Kondisi Stasioneritas Model GSTAR(11) ......... 112
5.4.2 Evaluasi Penentuan Bobot Lokasi (Spasial) yang
Optimal pada Model GSTAR .......................................... 115
5.4.3 Perbandingan Ketepatan Ramalan antara FFNN dan
Model-model Runtun Waktu Multivariat ......................... 118
BAB VI KESIMPULAN DAN MASALAH TERBUKA ................................. 122
6.1 Kesimpulan ................................................................................. 122
6.2 Masalah Terbuka ........................................................................ 125
RINGKASAN ............................................................................................... 127
SUMMARY ................................................................................................... 149
DAFTAR PUSTAKA .................................................................................... 167
LAMPIRAN ................................................................................................... 177
DAFTAR RIWAYAT HIDUP ......................................................................... 197
xi
ARTI LAMBANG DAN SINGKATAN
tY : variabel respon atau output pada waktu ke-t dalam ℜ
tX : variabel prediktor atau input pada waktu ke-t dalam ℜ
tε : variabel kesalahan random pada waktu ke-t dalam ℜ
)(2 εσ Var= : variansi variabel random ε
),( sr YYCov : kovariansi antara variabel random rY dan sY
)(⋅Zγ : fungsi autokovarians dari tZ
pΓ : matriks kovarians
det( )A : determinan matriks A
IID : independent and identically distributed
IID σ 2(0, ) : independent and identically distributed dengan mean µ dan
variansi 2σ
WN : white noise
WN ),0( 2σ : proses yang white noise dengan mean µ dan variansi 2σ
⋅ : harga mutlak
⋅ : norm
ARIMA : Autoregressive Integrated Moving Average
FFNN : Feedforward Neural Networks
MLP : Multi Layer Perceptrons
VAR : Vector Autoregressive
GSTAR : Generalized Space Time Autoregressive
( )i kx : variabel input sebanyak p , ),,2,1( pi K=
( )ˆ ky : nilai dugaan dari variabel output (target)
k : indeks pasangan data input-target ),( )()( kki yx , nk ,,2,1 K=
xii
hjiji w ,γ : bobot dari input ke- i yang menuju neuron ke- j pada lapis
tersembunyi, dengan qj ,,2,1 K=
,jβ ojw : bobot dari neuron ke- j di lapis tersembunyi yang menuju
neuron pada lapis output, dengan qj ,,2,1 K=
hjj b ,0γ : bias pada neuron ke- j pada lapis tersembunyi, dengan
qj ,,2,1 K=
ob ,0β : bias pada neuron di lapis output
hjf : fungsi aktifasi di neuron ke- j pada lapis tersembunyi
of : fungsi aktifasi pada neuron di lapis output
)(⋅ψ : fungsi aktifasi secara umum pada FFNN atau MLP
: fungsi aktifasi logistik sigmoid
: fungsi aktifasi linear
),( γβw = : bobot-bobot network secara keseluruhan
*w : bobot network yang optimal
nw : estimator untuk w
nw~ : estimator m yang rekursif untuk w
→ ..sa : konvergen hampir pasti (almost sure)
→p : konvergen dalam probabilitas
→d : konvergen dalam distribusi
→r : konvergen dalam mean ke r . .m s→ : konvergen dalam kuadrat mean
)1,0(Ν : distribusi Normal standar
),( 2σµΝ : distribusi Normal mean µ dan variansi 2σ
),( I0Ν : distribusi Normal standar multivariat
),( ΣμΝ : distribusi Normal multivariate mean μ dan variansi Σ
nW : uji statistik Wald
nW : nilai uji statistik Wald
xiii
LM : Lagrange Multiplier
R2incremental : besaran kontribusi penambahan atau koefisien determinasi
tambahan
SSE : Sum of Squares Error (Residual)
SSR : Sum of Squares Regression
MAE : Mean Absolute Error
MAPE : Mean Absolute Percentage Error
xiv
DAFTAR GAMBAR
Gambar 1.1 : Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input,
empat unit neuron di lapis tersembunyi, dan satu unit output
dengan fungsi aktifasi linear pada lapis output
Gambar 1.2 : Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag
variabel dependen sebagai input ( 321 ,, −−− ttt YYY ), empat unit
neuron di lapis tersembunyi, dan satu unit output ( tY ) dengan
fungsi aktifasi linear pada lapis output
Gambar 3.1 : Arsitektur FFNN dengan satu lapis tersembunyi, p unit input, q
unit neuron di lapis tersembunyi, dan satu unit neuron output
Gambar 3.2 : Ilustrasi dari persamaan update bobot-bobot pada lapis output
Gambar 3.3 : Ilustrasi dari persamaan update untuk bobot-bobot pada lapis
tersembunyi
Gambar 4.1 : Arsitektur model neural networks satu lapis tersembunyi pada
persamaan (4.1.4)
Gambar 4.2 : Plot runtun waktu data (2a), dan plot data dengan lag-lagnya,
yaitu 2b dengan lag 1, 2c dengan lag 2, 2d dengan lag 3, dan
2e dengan lag 4, dari data simulasi AR(2)
Gambar 4.3 : Plot runtun waktu data (3a), dan plot data dengan lag-lagnya,
yaitu 3b dengan lag 1, 3c dengan lag 2, 3d dengan lag 3, dan
3e dengan lag 4, dari data simulasi Gerak Acak
Gambar 4.4 : Plot runtun waktu data (4a), dan plot data dengan lag-lagnya,
yaitu 4b dengan lag 1, 4c dengan lag 2, 4d dengan lag 3, dan
4e dengan lag 4, dari data simulasi LSTAR
Gambar 4.5 : Plot runtun waktu data (5a), dan plot data dengan lag-lagnya,
yaitu 5b dengan lag 1, 5c dengan lag 2, 5d dengan lag 3, dan
5e dengan lag 4, dari data simulasi ESTAR-2
xv
Gambar 4.6 : Prosedur pembentukan model melalui inferensia R2incremental
Gambar 4.7 : Prosedur kombinasi inferensia R2incremental dan uji Wald
Gambar 5.1 : Plot runtun waktu dan plot variabel lag (yt-1, yt-2) dari data
simulasi
Gambar 5.2 : Output FFNN(6,6,1) tanpa satu unit variabel lag ,,,( 21 K−− tt YY
)6−tY dibandingkan dengan data aktual
Gambar 5.3 : Output network dengan menambahkan satu unit neuron di lapis
tersembunyi dibandingkan dengan data aktual
Gambar 5.4 : Plot runtun waktu inflasi Indonesia, Januari 1999 – April 2005
Gambar 5.5 : Plot runtun waktu data jumlah penumpang pesawat internasional
Gambar 5.6 : Plot runtun waktu dari data simulasi
Gambar 5.7 : Arsitektur FFNN-GSTAR(11) dengan satu lapis tersembunyi,
6 unit input, q unit neuron di lapis tersembunyi, dan satu unit
neuron di lapis output
Gambar 5.8 : Arsitektur FFNN-VAR(1) dengan satu lapis tersembunyi, 3 unit
input, q unit neuron di lapis tersembunyi, dan 3 unit neuron di
lapis output
xvi
DAFTAR TABEL
Tabel 4.1 : Hasil perbandingan power uji Terasvirta dan uji White pada
keenam model simulasi (1000 kali pengulangan)
Tabel 5.1 : Hasil-hasil penentuan jumlah unit yang optimal di lapis tersem-
bunyi dengan prosedur backward versi Kaashoek dan Van Dijk
Tabel 5.2 : Hasil-hasil penentuan unit input yang optimal dengan prosedur
backward versi Kaashoek dan Van Dijk
Tabel 5.3 : Hasil-hasil penentuan jumlah unit neuron yang optimal di lapis
tersembunyi dengan prosedur forward melalui uji R2incremental
Tabel 5.4 : Hasil-hasil penentuan unit input yang optimal dengan prosedur
forward melalui uji R2incremental
Tabel 5.5 : Hasil-hasil penentuan jumlah unit di lapis tersembunyi yang
optimal dengan prosedur backward melalui uji Wald
Tabel 5.6 : Ringkasan hasil perbandingan ramalan secara dinamis
Tabel 5.7 : Hasil perbandingan antara kelima model peramalan pada data
training dan testing
Tabel 5.8 : Hasil perbandingan efek pemrosesan awal data untuk FFNN
dan ARIMA pada data simulasi
Tabel 5.9 : Hasil perbandingan efek pemrosesan awal data untuk FFNN
dan ARIMA pada data Airline
Tabel 5.10 : Hasil perbandingan ketepatan ramalan antara GSTAR, VAR,
FFNN-GSTAR, dan FFNN-VAR pada data produksi minyak
xvii
INTISARI
FEEDFORWARD NEURAL NETWORKS UNTUK PEMODELAN RUNTUN WAKTU
oleh
Suhartono
Neural Networks (NN) merupakan salah satu contoh model nonlinear yang mempunyai bentuk fungsional fleksibel dan mengandung beberapa parameter yang tidak dapat diinterpretasikan seperti pada model parametrik. Salah satu bentuk model NN yang banyak digunakan untuk berbagai aplikasi adalah Feedforward Neural Networks (FFNN). Peramalan data runtun waktu adalah salah satu bidang dari pemodelan statistik yang sejak awal telah banyak digunakan untuk aplikasi model NN. Dalam penerapannya, FFNN mengandung sejumlah parameter (weight) yang terbatas. Bagaimana mendapatkan model FFNN yang sesuai, yaitu bagaimana menentukan kombinasi yang tepat antara banyaknya variabel input dan banyaknya unit pada lapis tersembunyi (yang berimplikasi pada banyaknya parameter yang optimal), merupakan topik sentral dalam penelitian tentang NN.
Bentuk umum FFNN yang digunakan untuk peramalan runtun waktu univariat pada penelitian ini adalah FFNN dengan satu lapis tersembunyi dan satu unit neuron di lapis output. Estimasi parameter (weight) model ini dilakukan dengan menerapkan algoritma backpropagation pada suatu optimisasi Nonlinear Least Squares. Dengan menggunakan beberapa teorema asimtotis dan konvergensi, dapat diturunkan sifat asimtotits estimator yang mengikuti distribusi normal multivariat asimtotis. Sifat asimtotis estimator ini selanjutnya digunakan untuk konstruksi uji statistik Wald yang dapat diimplementasikan untuk inferensia statistik terhadap estimator-estimator model FFNN. Suatu uji statistik baru melalui besaran kontribusi penambahan atau R2
incremental telah dapat dikonstruksi. Uji ini dikonstruksi melalui tiga tahapan utama pemodelan, yaitu model Tereduksi, model Lengkap, dan penentuan uji statistik F .
Kontribusi utama hasil penelitian ini adalah diperolehnya dua prosedur baru untuk pembentukan model FFNN yang diaplikasikan untuk peramalan runtun waktu. Prosedur pertama mengimplementasikan uji statistik F pada R2
incremental dalam skema forward yang dimulai dengan penentuan jumlah unit di lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal. Prosedur kedua menggunakan kombinasi antara uji statistik F pada R2
incremental
xviii
dalam skema forward untuk penentuan jumlah unit di lapis tersembunyi dengan uji Wald dalam skema backward untuk penentuan variabel input yang optimal.
Hasil kajian empiris menunjukkan bahwa algoritma ini dapat bekerja dengan baik dalam menentukan arsitektur FFNN terbaik yang diterapkan untuk peramalan runtun waktu. Hasil-hasil empiris berkaitan dengan perbandingan ketepatan ramalan antara model FFNN dengan model-model runtun waktu yang lain menunjukkan bahwa tidak ada jaminan bahwa FFNN selalu memberikan hasil yang terbaik. Selain itu, kajian empiris tentang efek pemrosesan awal data juga telah dilakukan dan menunjukkan bahwa pemilihan metode pemrosesan awal data yang tepat dapat secara signifikan meningkatkan ketepatan ramalan FFNN. Pada akhirnya, kajian perbandingan ketepatan ramalan pada kasus runtun waktu yang multivariat juga telah diperkenalkan. Hasil perbandingan pada data produksi minyak menunjukkan bahwa FFNN memberikan hasil ramalan yang lebih baik dibandingkan dengan model GSTAR (Generalized Space-Time Autoregressive) dan VAR (Vector Autoregressive).
Kata kunci : Feedforward Neural Networks (FFNN), backpropagation, uji Wald,
R2incremental, pemrosesan awal data, runtun waktu, univariat,
multivariat
xix
ABSTRACT
FEEDFORWARD NEURAL NETWORKS FOR TIME SERIES FORECASTING
by
Suhartono
Neural Networks (NN) is a prominent example of nonlinear model which has a flexible functional form and contains parameters that have no interpretation such as in parametric model. Feed forward neural networks (FFNN) is the most commonly used NN architecture in many fields of application. Time series forecasting has been an important application of NN from the very beginning. In the application of FFNN, it contains limited number of parameters (weights). How to find the best FFNN model, that is, how to find an accurate combination between number of input variables and neurons in hidden layer (imply the optimal number of parameters), is a central topic in NN research.
In this paper, the general form of FFNN used for univariate time series forecasting is FFNN which contains one hidden layer and one unit neuron at the output layer. Parameters estimation of FFNN model is done by implementing backpropagation algorithm on the Nonlinear Least Squares optimization. Asymptotic properties of the estimators that follow asymptotic multivariate normal distribution can be derived by using some theorems of asymptotic and convergence. Then, these properties are used to construct Wald test that can be implemented for statistical inference of FFNN estimators. By using contribution incremental or R2
incremental, the new statistic test has been constructed. This test contains three main steps of modeling, i.e. Reduced model, Full model, and determination of F test statistic.
Two new procedures for FFNN model building applied for time series forecasting are the main contribution of this research. The first procedure implements F test for R2
incremental inference in forward scheme that start from determination of the number of neurons in hidden layer and then selection of the optimal inputs. The second procedure uses a combination between F test for R2
incremental inference in forward scheme for determining the number of neurons in hidden layer and Wald test in backward scheme for selecting the optimal inputs.
xx
The empirical results show that two procedures can work properly for determining the optimal FFNN architecture that is applied for time series forecasting. The comparison results between FFNN and other time series models show that FFNN does not always yield the best forecast. Additionally, the empirical study about the effect of data preprocessing has been also done and the result shows that determination of an optimal data preprocessing can increase significantly the forecast accuracy of FFNN. Finally, the comparison study between FFNN and other time series models on the multivariate case has been also conducted. The comparison result by using the oil production data shows that FFNN yields better forecast than GSTAR (Generalized Space-Time Autoregressive) and VAR (Vector Autoregressive) models.
Keywords: Feed forward Neural Networks (FFNN), backpropagation, Wald test,
R2incremental, data preprocessing, time series, univariate, multivariate.
- 1 -
BAB I PENDAHULUAN
1.1 Latar Belakang
Pemodelan yang digunakan untuk menjelaskan hubungan nonlinear antar
variabel dan beberapa prosedur pengujian untuk mendeteksi adanya keterkaitan
nonlinear telah mengalami perkembangan yang sangat pesat pada beberapa
dekade terakhir ini. Sebagai overview hal ini dapat dilihat antara lain pada tulisan
Granger dan Terasvirta (1993). Perkembangan yang pesat ini juga terjadi dalam
bidang pemodelan statistik, khususnya model-model untuk runtun waktu dan
ekonometrika. Seiring dengan perkembangan komputasi dan meningkatnya
kekuatan komputasi, model nonparametrik yang tidak memerlukan asumsi
bentuk hubungan fungsional antar variabel telah menjadi lebih mudah untuk
diaplikasikan.
Model Neural Networks (NN) merupakan salah satu contoh model
nonlinear yang mempunyai bentuk fungsional fleksibel dan mengandung
beberapa parameter yang tidak dapat diinterpretasikan seperti pada model
parametrik. Penggunaan model NN dalam berbagai bidang terapan secara
umum didasari motivasi hasil matematika yang menyatakan bahwa di bawah
syarat yang tidak terlalu ketat, suatu model NN yang relatif sederhana dapat
digunakan untuk pendekatan semua fungsi Borel yang dapat diukur pada
sebarang derajat akurasi; sebagai contoh hal ini dapat dilihat pada Cybenko
(1989), Funahashi (1989), Hornik dkk. (1989, 1990), dan White (1990).
Pada saat ini banyak penelitian dilakukan secara luas dengan motivasi
adanya kemungkinan untuk menggunakan model NN sebagai suatu alat untuk
menyelesaikan berbagai masalah terapan, antara lain peramalan runtun waktu,
pattern recognition, signal processing, dan proses kontrol. Sarle (1994)
menyatakan bahwa ada tiga penggunaan utama NN, yaitu :
(1). sebagai suatu model sistem syaraf biologi dan kecerdasan,
Bab I. Pendahuluan
2
(2). sebagai prosesor signal real-time yang adaptif atau pengontrol yang di-
implementasikan dalam hardware untuk suatu terapan seperti robot, dan
(3). sebagai metode analisis data.
Wong dkk. (2000) telah melakukan suatu survei literatur secara lengkap
berkaitan dengan penelitian terapan NN dalam bidang bisnis selama periode
1994−1998. Survey ini telah mengidentifikasi sebanyak 302 artikel penelitian
terapan NN yang terdistribusikan pada berbagai bidang terapan, yaitu bidang
akuntansi atau auditing, keuangan, sumber daya manusia, sistem informasi,
marketing atau distribusi, dan pada bidang produksi atau riset operasi.
Dalam perkembangannya, model NN juga telah banyak diterapkan pada
bidang kedokteran. Aplikasi NN pada bidang ini antara lain untuk diagnosa
myocardinal infarction (Baxt, 1991; dan Pazos dkk., 1992), klasifikasi signal EEG
(Reddy dan Korrai, 1992), scan PET (Kippenhan dkk., 1992) dan prediksi
mekanisme efek perkembangan obat kanker (Weinstein dkk, 1992). Selain itu,
Somoza dan Somoza (1993) juga telah menerapkan NN pada bidang psikiatri.
Model Feedforward Neural Networks (FFNN) adalah salah satu bentuk
model NN yang dapat dipandang sebagai suatu kelompok model yang sangat
fleksibel yang dapat digunakan untuk berbagai aplikasi. Bentuk khusus model
FFNN yang pendekatan pemetaan nonlinearnya menggunakan jumlahan bobot
kernel-kernel (fungsi aktifasi) Gauss dikenal dengan Radial Basis Function (RBF)
networks. Beberapa referensi berkaitan dengan konsep dan bentuk model FFNN
secara umum dapat ditemukan di Bishop (1995), Ripley (1996) dan Fine (1999).
Sedangkan beberapa artikel khusus tentang model RBF dapat dilihat pada
Broomhead dan Lowe (1988), Moody dan Darken (1989), serta Poggio dan
Girosi (1990).
Secara statistik, model FFNN merupakan suatu bagian dari kelompok
pemodelan yaitu model regresi nonlinear dan model diskriminan. Referensi yang
lengkap berkaitan dengan perbandingan antara beberapa model NN dengan
model-model statistik yang klasik dan modern dapat dilihat pada Cheng dan
Bab I. Pendahuluan
3
Titterington (1994), Kuan dan White (1994), Ripley (1993, 1994), Sarle (1994),
dan beberapa artikel Cherkassky dkk. (1994).
Dalam penerapannya, FFNN mengandung sebanyak parameter (weight)
yang terbatas. Bagaimana mendapatkan model FFNN yang sesuai, yaitu
bagaimana menentukan kombinasi yang tepat antara banyaknya variabel input
dan banyaknya unit pada lapis tersembunyi (yang berimplikasi pada banyaknya
parameter yang optimal), merupakan topik sentral dalam beberapa literatur NN
yang telah banyak dibahas pada banyak artikel dan banyak buku seperti pada
Bishop (1995), Ripley (1996), Fine (1999), Haykin (1999), atau pada Reed dan
Marks II (1999).
Secara umum ada dua kelompok teknik atau prosedur yang biasanya
digunakan untuk mendapatkan model FFNN terbaik (arsitektur optimal), yaitu
prosedur yang “general-to-specific” atau “top-down”, suatu prosedur yang dimulai
dari model yang besar (komplek) dan kemudian menerapkan suatu algoritma
untuk mereduksi banyaknya parameter (banyaknya unit pada lapis tersembunyi
dan banyaknya variabel input) dengan menggunakan aturan pemberhentian
iterasi tertentu, dan prosedur yang “specific-to-general” atau “bottom-up” yaitu
suatu prosedur yang justru dimulai dari model yang sederhana. Dalam beberapa
literatur NN prosedur pertama lebih dikenal dengan istilah "pruning" (Reed, 1993;
Reed dan Marks II, 1999), sedangkan dalam kerangka pemodelan statistik dapat
dipandang sebagai metode backward. Prosedur kedua lebih dikenal dengan
istilah “constructive learning” dan salah satu yang telah banyak dikenal adalah
cascade correlation (Fahlman dan Lebiere, 1990; Littmann dan Ritter, 1996;
Prechelt, 1997), yang dapat dipandang sebagai suatu metode forward dalam
pemodelan statistik.
Kaashoek dan Van Dijk (2001) memperkenalkan suatu prosedur “pruning”
dengan mengimplementasikan tiga hal, yaitu besaran kontribusi penambahan
(R2incremental), analisis komponen utama, dan analisis secara grafik, untuk
mendapatkan banyaknya unit dalam lapis tersembunyi dan banyaknya variabel
input yang optimal dari suatu model FFNN. Sedangkan Swanson dan White
(1995, 1997a, 1997b) menerapkan kriteria pemilihan model SBIC atau Schwarz
Bab I. Pendahuluan
4
Bayesian Information Criteria pada prosedur “bottom-up” untuk penambahan
banyaknya unit di lapis tersembunyi dan banyaknya input sampai diperoleh
model FFNN yang optimal.
Pada perkembangannya, prosedur statistika inferensia juga diterapkan
dalam penentuan model FFNN yang terbaik. Dalam hal ini konsep uji hipotesa,
distribusi parameter dan penggunaan kriteria kesesuaian model diaplikasikan
untuk mendapatkan model FFNN yang optimal. Terasvirta dan Lin (1993) adalah
kelompok peneliti pertama yang mengaplikasikan prosedur statistika inferensia
untuk mendapatkan banyaknya unit di lapis tersembunyi yang optimal pada
model FFNN dengan satu lapis tersembunyi. Beberapa artikel terakhir tentang
pembentukan model FFNN dengan penggunaan statistika inferensia dapat dilihat
pada Anders dan Korn (1999), dan Medeiros dkk. (2002).
Peramalan data runtun waktu adalah salah satu bidang pemodelan
statistik yang sejak awal telah banyak digunakan untuk aplikasi model NN.
Lapedes dan Farber (1987) merupakan salah satu dari beberapa peneliti
pertama yang menggunakan NN untuk peramalan data runtun waktu.
Selanjutnya, banyak penelitian dilakukan berkaitan dengan prediksi pada data
real runtun waktu; antara lain dapat dilihat pada de Groot dan Wurtz (1991),
Weigend dan Gershenfeld (1993), Swanson dan White (1995), Weigend (1996),
Faraway dan Chatfield (1998), Lisi dan Schiavo (1999), Motiwalla dan Wahab
(2000), Yao dan Tan (2000), Leung dkk. (2000), serta pada Kaashoek dan Van
Dijk (2001, 2002). Secara umum dari beberapa penelitian yang ada tersebut,
fokus utama yang dibahas adalah bagaimana mendapatkan model NN yang
sesuai untuk suatu data runtun waktu. Isu yang sampai sekarang masih
merupakan pertanyaan terbuka dan banyak peneliti lakukan dalam penerapan
model NN untuk pemodelan runtun waktu adalah dalam rangka menjawab
beberapa pertanyaan berikut :
(1). Bagaimana prosedur identifikasi yang tepat untuk menentukan variabel
input awal sebagai kandidat yang sesuai?
(2). Bagaimana cara menentukan variabel input yang tepat?
Bab I. Pendahuluan
5
(3). Bagaimana cara menentukan jumlah unit yang tepat pada suatu lapis
tersembunyi?
(4). Bagaimana sifat-sifat estimator (parameter-parameter) pada model NN?
(5). Apa kriteria (statistik) yang paling tepat untuk mengevaluasi kesesuaian
suatu model NN?
(6). Apa bentuk pemrosesan awal data yang tepat pada NN?
Berdasarkan permasalahan terbuka yang ada berkaitan dengan model
NN, maka penelitian ini dilakukan dengan tujuan umum untuk mempelajari model
NN dalam kerangka pemodelan statistika. Secara khusus, pemodelan statistika
yang akan dibahas lebih banyak difokuskan pada model runtun waktu univariat.
Sehingga secara umum penelitian ini adalah dalam rangka mengkaji pendekatan
NN untuk analisis runtun waktu.
1.2 Perumusan Masalah
Prosedur Box-Jenkins adalah suatu prosedur standar yang biasanya
digunakan dalam analisis runtun waktu dengan model Autoregressive Integrated
Moving Average atau ARIMA. Pada pemodelan NN, ada banyak prosedur
pembentukan model yang telah diperkenalkan oleh beberapa peneliti terdahulu.
Namun, sampai saat ini belum ada satu prosedur yang diterima sebagai suatu
prosedur standar oleh kalangan peneliti NN, khususnya yang diaplikasikan dalam
analisis runtun waktu.
Dengan demikian, permasalahan utama dalam pembentukan model NN
dalam kerangka pemodelan statistik, khususnya model runtun waktu adalah
masih belum adanya suatu prosedur pembentukan model yang standar untuk
mendapatkan model NN terbaik pada suatu data runtun waktu, yaitu mulai tahap
identifikasi, estimasi parameter dan uji hipotesis yang berkaitan dengan
signifikansi parameter, serta tahap cek diagnosa untuk memvalidasi kesesuaian
model melalui suatu kriteria (uji statistik) tertentu. Sehingga masih terbuka luas
untuk dilakukan penelitian lanjut berkaitan dengan model NN dalam kerangka
pemodelan statistik, khususnya model runtun waktu.
Bab I. Pendahuluan
6
Untuk itu dalam penelitian ini fokus permasalahan yang akan diselidiki
peneliti adalah dalam rangka mendapatkan suatu prosedur pembentukan model
NN yang pada akhirnya diharapkan dapat diterima sebagai suatu prosedur yang
standar. Beberapa permasalahan utama yang akan diselidiki untuk mendukung
pembentukan prosedur standar tersebut adalah sebagai berikut :
(1). Pengkajian tentang sifat-sifat estimator (parameter atau weight) model
FFNN untuk pemodelan runtun waktu.
(2). Pengembangan dan pengkajian lanjut tentang kriteria (statistik uji) yang
tepat untuk memvalidasi kesesuaian suatu model FFNN untuk pemodelan
runtun waktu.
(3). Pengkajian dan pengembangan lebih lanjut tentang prosedur pemben-
tukan model FFNN yang optimal (kombinasi yang tepat antara banyaknya
input dan banyaknya unit di lapis tersembunyi) dengan mengimplemen-
tasikan sifat-sifat estimator dan kriteria statistik yang akan diperoleh untuk
pemodelan runtun waktu.
1.3 Batasan Penelitian
Permasalahan yang berkaitan dengan model NN merupakan pertanyaan
terbuka yang begitu luas dan kompleks. Untuk itu dalam penelitian ini perlu
diberikan batasan permasalahan agar penelitian yang akan dikerjakan lebih
fokus sesuai dengan rentang waktu yang direncanakan. Batasan yang diterapkan
pada penelitian disertasi ini yaitu model NN yang dibahas adalah model FFNN
(Feedforward Neural Networks) dengan satu lapis tersembunyi, dan fungsi
aktifasi yang digunakan dalam lapis tersembunyi adalah fungsi logistik sigmoid.
Pemilihan bentuk FFNN ini dimotivasi dari fakta yang menyatakan bahwa bentuk
ini dapat memberikan pendekatan sebarang yang akurat pada sebarang fungsi
dalam berbagai ruang fungsi norm jika dimensi dari ruang bobot adalah cukup
besar (Cybenko, 1989; Funahashi, 1989; Hornik dkk., 1989). Selain itu, per-
bandingan ketepatan ramalan hanya dilakukan dengan model-model runtun
waktu yang linear.
Bab I. Pendahuluan
7
1.4 Tujuan Penelitian
Secara umum penelitian ini terbagi dalam dua kajian, yaitu kajian teori
berkaitan dengan penurunan sifat-sifat estimator (parameter atau weight) model
FFNN dan pengembangan kriteria statistik untuk uji kesesuaian model FFNN,
serta kajian terapan berkaitan dengan implementasi hasil kajian teori untuk
mendapatkan prosedur baru yang diharapkan dapat bekerja optimal untuk
pembentukan model FFNN pada pemodelan runtun waktu. Dengan demikian,
tujuan dari penelitian ini adalah :
A. Kajian Teori
(1). Mengkaji penurunan sifat-sifat estimator yang sesuai untuk parameter-
parameter model FFNN yang diterapkan pada pemodelan runtun
waktu.
(2). Mengembangkan dan mendapatkan statistik uji yang tepat untuk
memvalidasi kesesuaian suatu model FFNN yang diaplikasikan pada
pemodelan runtun waktu.
B. Kajian Terapan
(1). Mengembangkan dan mendapatkan suatu prosedur pembentukan
model FFNN yang optimal dengan mengimplementasikan sifat-sifat
estimator (parameter-parameter) model dan statistik uji yang akan
diperoleh untuk pemodelan runtun waktu.
(2). Membandingkan hasil implementasi model FFNN melalui prosedur
yang dihasilkan dalam penelitian ini dengan hasil-hasil implementasi
model-model statistik standar yang biasanya diaplikasikan untuk
peramalan runtun waktu.
1.5 Tinjauan Pustaka
Secara umum analisis runtun waktu menurut Chatfield (2001) mempunyai
beberapa tujuan, yaitu peramalan, pemodelan, dan kontrol. Peramalan berkaitan
dengan problem pembentukan model dan metode yang dapat digunakan untuk
Bab I. Pendahuluan
8
menghasilkan suatu ramalan yang akurat. Pemodelan bertujuan mendapatkan
suatu model statistik yang sesuai dalam merepresentasikan perilaku jangka
panjang suatu data runtun waktu. Perbedaan pemodelan dengan peramalan
adalah peramalan lebih cenderung pada suatu model yang “black-box” untuk
mendapatkan ramalan, sedangkan pemodelan cenderung pada model yang
dapat diinterpretasikan untuk menjelaskan apa yang sedang terjadi berkaitan
dengan hubungan antar variabel pada suatu data runtun waktu. Sedangkan
tujuan untuk kontrol banyak digunakan dalam bidang teknik, khususnya signal
processing.
Pemodelan statistik untuk analisis runtun waktu jika dirunut kebelakang,
diawali oleh Yule (1927) yang memperkenalkan model autoregresi linear (AR)
untuk meramalkan bilangan tahunan sunspot. Sejak itu publikasi berkaitan
dengan analisis runtun waktu berkembang dengan pesat. Sampai tahun 1980,
sebagian besar penelitian terfokus pada model runtun waktu linear, khususnya
kelas model linear Autoregressive Integrated Moving Average (ARIMA). Box dan
Jenkins (1976) mengembangkan suatu prosedur yang lengkap untuk metodologi
model ARIMA yang sampai sekarang digunakan sebagai prosedur standar dalam
pembentukan model runtun waktu linear. Beberapa literatur yang banyak
membahas model ARIMA ini dapat dilihat pada Cryer (1986), Wei (1990) dan
Box dkk. (1994). Selain itu, sifat-sifat yang berkaitan dengan teori statistik untuk
model ARIMA juga telah banyak dianalisis dan dikembangkan oleh beberapa
peneliti, antara lain telah dilakukan oleh Brockwell dan Davis (1991).
Dalam perkembangan analisis runtun waktu, telah banyak diketahui
bahwa banyak fenomena yang menarik dan sederhana seringkali merupakan
fenomena yang nonlinear, yaitu hubungan antara kejadian di masa lalu dan saat
ini adalah nonlinear. Dengan demikian, kelompok pemodelan runtun waktu yang
linear tidaklah cukup dan sesuai untuk kasus-kasus tersebut. Sebagai
konsekuensinya, model-model runtun waktu nonlinear telah menjadi fokus
perhatian utama peneliti runtun waktu pada beberapa tahun terakhir ini.
Beberapa bentuk model nonlinear telah dikembangkan dan diaplikasikan pada
beberapa kasus runtun waktu, dan sebagai overview atau diskusi lanjut hal ini
Bab I. Pendahuluan
9
dapat ditemukan di Tong (1990), Priestley (1991), Lee dkk. (1993), serta Granger
dan Terasvirta (1993).
1.5.1 Konsep Dasar pada Analisis Runtun waktu
Pada bagian ini akan dijelaskan secara ringkas beberapa konsep dasar
pada analisis runtun waktu, berkaitan dengan ide dasar dan beberapa definisi
yang sering digunakan. Secara lebih lengkap hal ini dapat dilihat pada Brockwell
dan Davis (1991).
Runtun waktu adalah suatu deret (barisan) dari pengamatan tY pada
suatu variabel Y , yang tiap-tiap pengamatan dicatat pada suatu waktu tertentu
Tt ∈ . Dalam hal ini T adalah himpunan dari waktu dimana pengamatan-
pengamatan tersebut dilakukan. Jika T adalah suatu himpunan yang diskrit,
maka , TtYt ∈ adalah suatu runtun waktu yang diskrit. , TtYt ∈ merupakan
notasi keseluruhan suatu runtun waktu, dimana tY adalah pengamatan dari
, TtYt ∈ pada waktu ke t . Pada kasus runtun waktu yang diskrit, pengamatan-
pengamatan biasanya diambil pada interval waktu yang sama. Dalam hal ini axis
waktu T diasumsikan sama dengan ℕ = 0,1,2,…, sehingga secara umum untuk
axis waktu T adalah sama dengan ℤ = 0,±1,±2,….
Pendekatan statistik pada analisis runtun waktu dilakukan dengan
menggunakan model-model statistik untuk menjelaskan perilaku dinamis dari
suatu runtun waktu. Hal ini mengasumsikan bahwa suatu runtun waktu di-
bangkitkan dari suatu mekanisme atau model yang stokastik, yang biasanya
didefinisikan dengan suatu persamaan beda yang stokastik. Persamaan beda
yang stokastik terdiri dari suatu persamaan dan beberapa kondisi awal. Hasil
atau solusi dari model ini adalah suatu proses stokastik, yaitu suatu barisan dari
variabel random tY yang didefinisikan pada ruang probabilitas (Ω,ℱ,Р). Untuk
∈ω Ω tertentu, )(ωtY disebut suatu realisasi (sample path atau trajectory) dari
tY . Setiap pengamatan )(ωtY adalah suatu nilai realisasi dari variabel random
tY yang nilai-nilainya diperoleh dalam ruang Euclidean d-dimensi ℝd.
Bab I. Pendahuluan
10
Contoh 1.5.1. Diberikan suatu model linear AR orde pertama
ttt YY εφ += −11 , ,...,2,1=t (1.5.1)
dan 0Y adalah suatu variabel random yang merepresentasikan kondisi awal.
Dalam hal ini tε adalah suatu barisan yang terdistribusikan secara identik dan
independen (IID) dari variabel random yang merepresentasikan gangguan atau
error atau disturbance terms. Penyelesaian tY dari persamaan (1.5.1) adalah
suatu proses stokastik
∑−
=−+=
1
0101
t
tit
ttt YY εφφ , ,...2,1=t . (1.5.2)
Sifat penting untuk analisis runtun waktu adalah proses-proses (stokastik)
tersebut merupakan proses yang stasioner, yaitu fungsi-fungsi distribusinya
secara keseluruhan adalah independen terhadap waktu. Definisi-definisi berikut
berkaitan dengan proses stokastik yang stasioner.
Definisi 1.5.1. (Brockwell dan Davis, 1991) Suatu proses tY dikatakan
stasioner kuat jika ),...,,( 21′
kttt YYY dan ),...,,( 21′+++ hththt kYYY mempunyai
fungsi distribusi bersama yang sama untuk semua bilangan bulat 1≥h dan untuk
semua ∈httt k ,,...,, 21 ℕ.
Proses-proses dengan momen pertama dan kedua yang independen
terhadap waktu juga menjadi perhatian dalam analisis runtun waktu. Definisi-
definisi berikut berkaitan dengan konsep stasioner lemah atau stasioner sampai
orde kedua.
Definisi 1.5.2. (Brockwell dan Davis, 1991) Jika diberikan tY adalah suatu
proses dengan 2tYΕ < ∞ untuk setiap ∈t ℕ, maka tY dikatakan stasioner
lemah (weakly stationary) jika µ=Ε )( tY untuk semua ∈t ℕ dan
),(),( hshrsr YYCovYYCov ++= untuk semua ∈hsr ,, ℕ.
Definisi 1.5.3. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses yang
stasioner lemah (weakly stationary), maka fungsi autokovarians )(⋅Yγ dari tY
didefinisikan sebagai ),()( httY YYCovh +=γ untuk semua ∈ht, ℕ.
Bab I. Pendahuluan
11
Nilai-nilai kesalahan ramalan atau error tε dari suatu model runtun
waktu biasanya diasumsikan sebagai suatu barisan dari variabel random yang
IID. Ketika yang menjadi perhatian adalah proses yang stasioner lemah, nilai-nilai
kesalahan ramalan tε biasanya menggambarkan perilaku white noise dari
sudut pandang orde dua.
Definisi 1.5.4. (Brockwell dan Davis, 1991) Suatu proses tε dikatakan white
noise dengan mean 0 dan varians 2σ , ditulis ),0(WN~ 2σε t , jika dan hanya
jika tε mempunyai mean nol dan fungsi autokovarians
≠==
. jika jika
00,0)(
2
hhh σγ ε
1.5.2 Neural Networks untuk Analisis Runtun waktu
Sejak McCulloch dan Pitts (1943) memperkenalkan suatu model
sederhana dari suatu syaraf nyata dalam otak manusia seperti suatu unit
threshold biner, banyak aktivitas dalam bidang NN yang telah dilakukan dan
dikembangkan. Pada awalnya, NN didesain untuk memodelkan bentuk arsitektur
syaraf pada otak manusia. Penelitian-penelitian pada saat ini secara luas banyak
dilakukan dan dimotivasi oleh adanya kemungkinan menggunakan NN sebagai
suatu instrumen untuk menyelesaikan berbagai permasalahan aplikasi seperti
pattern recognition, signal processing, process control dan peramalan runtun
waktu.
Pada dasarnya, NN merupakan suatu kumpulan dari elemen-elemen
pemroses yang saling berhubungan, yang disebut dengan unit-unit atau syaraf-
syaraf. Frase NN mempunyai arti yang luas dan bervariasi pada bidang-bidang
penelitian yang berbeda, hal ini dapat dilihat pada Bishop (1995). Dalam
penelitian disertasi ini, NN dipandang sebagai suatu obyek matematika atau
secara khusus sebagai suatu model statistik untuk runtun waktu.
Multi-Layer Perceptrons (MLP) yang juga dikenal dengan feedforward
atau backpropagation networks atau FFNN adalah bentuk arsitektur NN yang
Bab I. Pendahuluan
12
secara umum paling banyak digunakan dalam aplikasi di bidang teknik atau
rekayasa. Biasanya, aplikasi NN untuk pemodelan runtun waktu dan signal
processing adalah berdasarkan pada arsitektur MLP atau FFNN.
MLP dapat dipandang sebagai suatu kelas yang fleksibel dari fungsi-
fungsi nonlinear. Secara umum, model ini bekerja dengan menerima suatu vektor
dari input-input X dan kemudian menghitung suatu respon atau output )(XY
dengan memproses (propagating) X melalui elemen-elemen proses yang saling
terkait. Elemen-elemen proses tersusun dalam beberapa lapis (layer) dan data,
X , mengalir dari satu lapis ke lapis berikutnya secara berurutan. Dalam tiap-tiap
lapis, input-input ditransformasi kedalam lapis secara nonlinear oleh elemen-
elemen proses dan kemudian diproses maju ke lapis berikutnya. Akhirnya, nilai-
nilai output )(XY , yang dapat berupa nilai-nilai skalar atau vektor, dihitung pada
lapis output.
Gambar 1.1 adalah suatu contoh bentuk khusus MLP dengan satu lapis
tersembunyi (hidden layer) yang lebih dikenal dengan FFNN dengan satu lapis
tersembunyi. Dalam contoh ini, FFNN terdiri dari tiga input (yaitu 1X , 2X dan
3X ), empat unit neuron di lapis tersembunyi dengan fungsi aktifasi ψ , dan satu
unit output dengan fungsi aktifasi linear.
Dalam arsitektur ini, nilai-nilai respon atau output )(XY dihitung dengan
∑ ∑= =
++=H
j
I
iijijjY
1 100 )()( XX γγψββ (1.5.3)
dengan ),...,,,...,,( 1010 HIH γγβββ adalah besaran-besaran bobot (network
weights) atau parameter-parameter MLP. Bentuk nonlinear dari fungsi )(XY
terjadi melalui suatu fungsi yang disebut fungsi aktifasi ψ , yang biasanya fungsi
yang halus atau smooth seperti fungsi logistik sigmoid
ZeZ
−+=
11)(ψ . (1.5.4)
Pemilihan bentuk MLP dengan satu lapis tersembunyi dan fungsi linear
pada lapis output (tidak ada fungsi aktifasi nonlinear pada lapis output) ini
dimotivasi dari fakta yang menyatakan bahwa bentuk ini dapat memberikan
Bab I. Pendahuluan
13
pendekatan sebarang yang akurat pada sebarang fungsi dalam berbagai ruang
fungsi norm jika dimensi dari ruang bobot adalah cukup besar (Cybenko, 1989;
Funahashi, 1989; Hornik dkk., 1989).
Gambar 1.1. Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input, empat unit neuron di lapis tersembunyi, dan satu unit output dengan fungsi aktifasi linear pada lapis output.
Salah satu bidang yang banyak digunakan untuk aplikasi model NN
adalah peramalan suatu data runtun waktu. Lapedes dan Farber (1987) adalah
bagian dari sekelompok peneliti yang mula-mula menerapkan model NN untuk
menganalisis data runtun waktu, yaitu peramalan dari signal nonlinear yang
dibangkitkan dengan komputer. Dalam perkembangan selanjutnya, model NN
telah banyak digunakan untuk prediksi atau peramalan data runtun waktu yang
real, antara lain Weigend dkk. (1990), de Groot dan Wurtz (1991), Tang dkk.
(1991), Weigend dan Gershenfeld (1993), Swanson dan White (1995), Hill dkk.
(1996), Weigend (1996), Faraway dan Chatfield (1998), Lisi dan Schiavo (1999),
Motiwalla dan Wahab (2000), Yao dan Tan (2000), Leung dkk. (2000), Kaashoek
dan Van Dijk (2001, 2002), serta Leung dan Chan (2003). Selain itu, aplikasi
model NN untuk analisis runtun waktu, terutama bidang ekonometrik runtun
Bab I. Pendahuluan
14
waktu, juga mendorong perkembangan beberapa tes untuk uji nonlinearitas
(White, 1989c; Lee dkk., 1993; Terasvirta dkk., 1993).
Aplikasi model NN untuk peramalan runtun waktu memerlukan perlakuan
dari suatu proses yang dinamis. MLP dapat mengakomodasi perilaku dinamis
tersebut dengan memasukkan lag (kejadian sebelumnya) dari variabel respon
atau target, itY − , dalam himpunan input. Hal ini dapat diperoleh dengan
mengganti ),...,( 1 ′= −− ptt YYX dalam persamaan (1.5.3). Bentuk ini selanjutnya
dikenal dengan Model Autoregressive Neural Network (ARNN) dan secara grafik
untuk 3 lag sebagai input dapat dilihat seperti Gambar 1.2. Secara umum bentuk
arsitektur dari model ini adalah sama dengan model ARIMA(p,0,0), dimana
bentuk perbedaannya adalah bentuk fungsi yang mentransfer kejadian-kejadian
masa lalu ),...,( 1 ′−− ptt YY ke kejadian masa sekarang tY adalah nonlinear,
sedangkan pada model ARIMA(p,0,0) adalah fungsi linear. Sehingga seringkali
model AR-NN ini disebut juga dengan model autoregresi yang nonlinear
(Faraway dan Chatfield, 1998).
Dalam perkembangan selanjutnya, arsitektur yang lebih fleksibel telah
pula diperkenalkan dan dikembangkan untuk aplikasi NN pada analisis runtun
waktu, yaitu arsitektur yang mengandung variabel recurrent. Pada arsitektur ini,
selain himpunan beberapa lag variabel respon atau target sebagai input, juga
melibatkan lag-lag dari selisih prediksi target dengan nilai aktual target atau yang
dikenal dengan lag-lag error. Bentuk model semacam ini selanjutnya dikenal
dengan model ARMA-RNN atau Autoregressive Moving Average – Recurrent
Neural Networks. Beberapa artikel berkaitan dengan bentuk model NN yang
mengandung unsur recurrent ini dapat dilihat pada Jordan (1986), Elman (1990),
serta Connor dkk. (1992, 1994).
Model NN adalah model yang dalam penerapannya mengandung
sejumlah parameter (weight) yang terbatas. Bagaimana mendapatkan model NN
yang sesuai, yaitu bagaimana menentukan kombinasi yang tepat antara
banyaknya variabel input dan banyaknya unit pada lapis tersembunyi (yang
berimplikasi pada banyaknya parameter yang optimal) adalah topik sentral yang
banyak menjadi fokus bahasan dalam beberapa literatur NN.
Bab I. Pendahuluan
15
Gambar 1.2. Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag variabel dependen sebagai input ( 321 ,, −−− ttt YYY ), empat unit neuron di lapis tersembunyi, dan satu unit output ( tY ) dengan fungsi aktifasi linear pada lapis output.
Kontribusi utama disertasi ini adalah diperolehnya dua prosedur baru
untuk pembentukan model FFNN yang diaplikasikan untuk peramalan runtun
waktu. Prosedur pertama mengimpementasikan uji statistik F pada R2incremental
dalam skema forward yang dimulai dengan penentuan banyaknya unit di lapis
tersembunyi dan dilanjutkan penentuan variabel input yang optimal. Prosedur
kedua menggunakan kombinasi antara uji R2incremental dalam skema forward untuk
penentuan banyaknya unit di lapis tersembunyi dengan uji Wald dalam skema
backward untuk penentuan variabel input yang optimal. Hasil-hasil ini dapat
dipandang sebagai pengembangan dari prosedur yang diperkenalkan oleh
Kaashoek dan Van Dijk (2002).
Dalam disertasi ini, pembentukan dua prosedur baru tersebut diperoleh
berdasarkan hasil-hasil teoritis berupa teorema tentang uji statistik Wald dan uji
R2incremental. Secara empiris dapat ditunjukkan bahwa kedua prosedur baru ini
Bab I. Pendahuluan
16
dapat bekerja dengan baik dalam menentukan arsitektur FFNN terbaik pada
suatu data runtun waktu. Selain itu, kedua prosedur ini juga terbukti memberikan
tahapan pembentukan model yang lebih efisien dibanding yang diusulkan oleh
Kaashoek dan Van Dijk (2002).
Hasil-hasil empiris berkaitan dengan perbandingan ketepatan ramalan
antara model FFNN dengan model-model runtun waktu yang lain menunjukkan
bahwa FFNN dengan cara pemrosesan awal yang tepat cenderung memberikan
hasil yang lebih baik dibanding model-model runtun waktu klasik. Selain itu,
kajian tentang efek pemrosesan awal data juga menunjukkan bahwa pemilihan
metode pemrosesan awal data yang tepat dapat secara signifikan meningkatkan
ketepatan ramalan FFNN.
Pada akhirnya, dalam disertasi ini juga diberikan hasil-hasil kajian
perbandingan ketepatan ramalan pada kasus runtun waktu yang multivariat.
Sebagi tambahan, hasil kajian teoritis terhadap model GSTAR memberikan dua
kontribusi utama, yaitu telah diperoleh suatu metode baru untuk penentuan bobot
lokasi yang optimal pada model GSTAR(11) yang terbukti lebih baik dibanding
metode yang lain, dan counter example dari teorema tentang kondisi stasioner
pada model GSTAR(11) yang diperkenalkan oleh Borovkova dkk. (2002).
1.5.3 Outline Disertasi
Disertasi ini terdiri atas enam bab bahasan. Bab I berisi tentang
pendahuluan, yang mencakup tentang latar belakang, permasalahan, dan tujuan
penelitian. Bab II membahas secara ringkas tentang model ARIMA yang
merupakan model linear yang paling banyak digunakan dalam peramalan runtun
waktu. Pada Bab III disajikan bagian pertama inti disertasi yaitu tentang estimasi
parameter model FFNN, sifat-sifat asimtotis estimator model FFNN, dan
penjabaran konstruksi teorema untuk uji Wald yang dapat digunakan untuk
proses inferensi terhadap estimator model FFNN.
Bab IV merupakan bagian kedua inti disertasi yang berisi tentang
penjabaran konstruksi teorema untuk uji terhadap kontribusi penambahan atau
Bab I. Pendahuluan
17
R2incremental. Selanjutnya, dalam bab ini juga dibahas dua prosedur baru untuk
pembentukan model FFNN pada peramalan runtun waktu yang merupakan
kontribusi utama dari disertasi.
Hasil-hasil empiris yang berkaitan dengan implementasi dua prosedur
baru pada data simulasi disajikan dalam Bab V. Pada bab ini juga diberikan hasil-
hasil empiris lainnya, yaitu hasil perbandingan ketepatan ramalan antara model
FFNN dan model-model runtun waktu klasik, hasil kajian efek pemrosesan awal
data pada runtun waktu yang mengandung pola tren dan musiman, serta hasil
perbandingan pada kasus runtun waktu yang multivariat. Pada akhirnya,
kesimpulan dan masalah terbuka diberikan dalam Bab VI.
- 18 -
BAB II ANALISIS RUNTUN WAKTU
Secara umum ada dua pendekatan utama dalam metode peramalan,
yaitu pendekatan sebab akibat (kausal) dan pendekatan runtun waktu. Bagian ini
fokus hanya menjelaskan peramalan dengan pendekatan runtun waktu atau yang
lebih dikenal dengan analisis runtun waktu, khususnya tentang proses ARMA.
Pembahasan dilakukan pada aspek teori dan penurunan estimasi parameter,
sifat-sifat estimator, dan sifat normalitas asimtotis dari estimator model ARMA.
Suatu kelas yang luas dari proses yang stasioner dapat dibangkitkan
dengan menggunakan white noise dalam suatu himpunan dari persamaan beda
linear. Hal ini mendorong suatu gagasan tentang suatu proses autoregressive-
moving average atau ARMA.
2.1 Proses ARMA (Autoregressive-Moving Average)
Pada bagian ini akan diberikan dan dijelaskan beberapa definisi, proposisi
dan teorema berkaitan dengan proses ARMA. Penjelasan secara lengkap dan
komprehensif dari teori tentang proses ARMA ini dapat dilihat pada Brockwell
dan Davis (1991).
Definisi 2.1.1. (Brockwell dan Davis 1991, Proses ARMA(p,q)). Suatu proses
,2,1,0, K±±∈tYt disebut proses ARMA(p,q) jika tY adalah stasioner dan
jika untuk setiap t ,
qtqttptptt YYY −−−− +++=−−− εθεθεφφ LL 1111 , (2.1.1)
dengan ),0(WN~ 2σε t . tY disebut suatu proses ARMA(p,q) dengan mean
µ jika µ−tY adalah suatu proses ARMA(p,q).
Persamaan (2.1.1) dapat ditulis secara simbolik dalam bentuk yang lebih
compact, yaitu
tt BYB εθφ )()( = , (2.1.2)
Bab II. Analisis Runtun Waktu 19
dengan φ dan θ adalah polinomial derajat p dan q, yaitu
pp zzz φφφ −−−= L11)( (2.1.3)
dan
qq zzz θθθ +++= L11)( (2.1.4)
dan B adalah suatu operator mundur (backward shift operator) yang didefinisikan
dengan
jttj YYB −= , K,2,1,0 ±±=j . (2.1.5)
Berikut ini adalah definisi dari konsep kausalitas (causality) untuk suatu
proses ARMA(p,q) yang umum.
Definisi 2.1.2. (Brockwell dan Davis, 1991) Suatu proses ARMA(p,q) yang
didefinisikan dengan persamaan tt BYB εθφ )()( = disebut suatu kausal (atau
secara lebih spesifik adalah suatu fungsi kausal dari tε ) jika terdapat suatu
barisan dari konstanta-konstanta jψ sedemikian hingga ∑∞= ∞<0 ||j jψ dan
∑∞
=−=
0jjtjtY εψ , K,2,1,0 ±±=t . (2.1.6)
Proposisi berikut ini memperjelas arti dari penjumlahan yang tertulis pada
persamaan (2.1.6).
Proposisi 2.1.1. (Brockwell dan Davis, 1991) Jika tY adalah sembarang
barisan dari variabel random sedemikian hingga ∞<||sup tt YE , dan jika
∑∞−∞= ∞<j j ||ψ , maka deret
∑∑∞
−∞=−
∞
−∞===
jjtj
jt
jjt YYBYB ψψψ )( , (2.1.7)
konvergen secara absolut dengan probabilitas satu. Jika dalam penjumlahan
∞<2||sup tt YE maka deret (series) itu konvergen dalam mean square pada
batas yang sama.
Bab II. Analisis Runtun Waktu 20
Proposisi 2.1.2. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses
yang stasioner dengan fungsi autokovarians )(⋅γ dan jika ∑∞−∞= ∞<j j ||ψ ,
maka untuk setiap ∈t ℤ, series (2.1.7) konvergen secara absolut dengan
probabilitas satu dan dalam mean square pada batas yang sama. Jika
tt YBZ )(ψ=
maka proses tZ adalah stasioner dengan fungsi autokovarians
∑∞
−∞=+−=
kjkjZ kjhh
,)()( γψψγ .
Teorema berikut ini memberikan syarat perlu dan cukup (necessary and
sufficient conditions) untuk suatu proses ARMA(p,q) adalah suatu kausal.
Teorema ini juga memberikan representasi eksplisit dari tY yang dinyatakan
dalam , tss ≤ε .
Teorema 2.1.1. (Brockwell dan Davis, 1991) Misalkan tY adalah suatu proses
ARMA(p,q) dengan polinomial )(⋅φ dan )(⋅θ tidak mempunyai pembuat nol yang
sama. tY adalah kausal jika dan hanya jika 0)( ≠zφ untuk semua ∈z ℂ sedemikian hingga 1|| ≤z . Koefisien-koefisien jψ dalam (2.1.6) ditentukan
oleh hubungan
)(/)()(0
zzzzj
jj φθψψ == ∑
∞
=, 1|| ≤z . (2.1.8)
Selanjutnya, akan diperkenalkan dan dijelaskan konsep lain yang
berkaitan erat dengan kausalitas, yaitu konsep dapat dibalik (invertibility).
Definisi 2.1.3. (Brockwell dan Davis, 1991) Suatu proses ARMA(p,q) yang
didefinisikan dengan persamaan tt BYB εθφ )()( = disebut dapat dibalik
(invertible) jika terdapat suatu barisan dari konstanta-konstanta jπ sedemikian
hingga ∑∞= ∞<0 ||j jπ dan
∑∞
=−=
0jjtjt Yπε , K,2,1,0 ±±=t . (2.1.9)
Bab II. Analisis Runtun Waktu 21
Seperti halnya kausalitas, sifat dapat dibalik (invertibility) bukanlah suatu
sifat dari proses tY sendiri, tetapi merupakan hubungan antara dua proses
tY dan tε yang terlihat dalam persamaan ARMA yang didefinisikan.
Teorema berikut ini memberikan syarat perlu dan cukup untuk invertibility dan
spesifikasi koefisien-koefisien jπ dalam representasi (2.1.9).
Teorema 2.1.2. (Brockwell dan Davis, 1991) Misalkan tY adalah suatu proses
ARMA(p,q) dengan polinomial )(⋅φ dan )(⋅θ tidak mempunyai pembuat nol yang
sama. tY adalah invertible jika dan hanya jika 0)( ≠zθ untuk semua ∈z ℂ sedemikian hingga 1|| ≤z . Koefisien-koefisien jπ dalam (2.1.9) ditentukan
oleh hubungan
)(/)()(0
zzzzj
jj θφππ == ∑
∞
=, 1|| ≤z . (2.1.10)
Teorema 2.1.3. (Brockwell dan Davis, 1991) Jika 0)( ≠zφ untuk semua ∈z ℂ sedemikian hingga 1|| =z , maka suatu persamaan ARMA(p,q),
tt BYB εθφ )()( = , mempunyai suatu penyelesaian tunggal,
∑∞
−∞=−=
jjtjtY εψ , (2.1.11)
dengan koefisien-koefisien jψ adalah ditentukan sebagai
)()()( 1 zzzzj
jj ψψφθ == ∑
∞
−∞=
− , rzr <<− ||1 . (2.1.12)
Berikut adalah pengembangan bentuk proses MA(q) yang dijelaskan
sebelumnya dengan memperhitungkan q adalah tak berhingga.
Definisi 2.1.4. (Brockwell dan Davis, 1991) Jika ),0(WN~ 2σε t maka dikata-
kan bahwa tY adalah suatu moving average (MA( ∞ )) dari tε jika terdapat
suatu barisan jψ dengan ∑∞= ∞<0 ||j jψ sedemikian hingga
jtj
jtY −
∞
=∑= εψ
0, K,2,1,0 ±±=t . (2.1.13)
Bab II. Analisis Runtun Waktu 22
Proposisi 2.1.3. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses
yang stasioner dengan mean nol dan fungsi autokovarians )(⋅γ sedemikian
hingga 0)( =hγ untuk qh >|| dan 0)( ≠qγ , maka tY adalah suatu proses
MA(q), yaitu terdapat suatu proses white noise tε sedemikian hingga
qtqtttY −− +++= εθεθε L11 . (2.1.14)
Berikut ini adalah teorema tentang fungsi autokovarians dari proses
MA( ∞ ) sebagai konsekuensi dari Proposisi 2.1.2.
Teorema 2.1.3. (Brockwell dan Davis, 1991) Suatu proses MA(∞ ) yang di-
definisikan pada (2.1.13) adalah stasioner dengan mean nol dan fungsi
autokovarians
∑∞
=+=
0||
2)(j
ktjk ψψσγ . (2.1.15)
2.2 Estimasi Parameter Model ARMA
Penentuan model ARMA(p,q) yang sesuai untuk merepresentasikan
suatu pengamatan runtun waktu yang stasioner melibatkan suatu permasalahan-
permasalahan yang saling terkait. Secara umum hal ini mencakup pemilihan orde
p dan q pada tahap identifikasi, estimasi parameter-parameter yaitu mean,
koefisien-koefisien ),,2,1;,,2,1:,( qjpiji KK ==θφ dan varians yang white
noise 2σ , dan cek diagnosa beberapa asumsi yang harus dipenuhi untuk
kesesuaian model.
Bagian ini fokus akan menjelaskan beberapa metode estimasi parameter
dalam model ARMA(p,q) beserta sifat-sifat estimator tersebut, yaitu estimator
Yule-Walker, Least Squares, dan Maximum Likelihood.
2.2.1 Estimasi Yule-Walker
Misalkan tY adalah suatu proses autoregressive kausal dengan mean
nol,
tptptt YYY εφφ =−−− −L1 , ),0(WN~ 2σε t . (2.2.1)
Bab II. Analisis Runtun Waktu 23
Tujuan dari estimasi ini adalah untuk mendapatkan estimator-estimator dari
vektor koefisien ),,,( 21 ′= pφφφ KΦ dan suatu varians yang white noise 2σ
berdasarkan pada pengamatan-pengamatan nYYY ,,, 21 K .
Asumsi kausalitas memberikan penulisan tY dalam bentuk
jtj
jtY −
∞
=∑= εψ
0, (2.2.2)
dengan menggunakan Teorema 2.1.1, ∑∞= =0 ),(/1j
jj zz φψ 1|| ≤z . Melalui
perkalian kedua sisi (2.2.1) dengan pjY jt ,,1,0, K=− , penerapan ekspektasi,
dan penggunaan (2.2.2) untuk mengevaluasi sisi sebelah kanan, diperoleh
persamaan Yule-Walker,
pp γΦΓ = , (2.2.3)
dan
pγφ′−= )0(2 γσ , (2.2.4)
dengan pΓ ialah matrik kovarians pjiji 1,)]([ =−γ dan ))(,),2(),1(( ′= pp γγγ Kγ .
Persamaan-persamaan ini dapat digunakan untuk menentukan )(,),0( pγγ K
dari 2σ dan Φ .
Di sisi lain, jika kovarians pjj ,,0),( K=γ , seperti yang terlihat pada
(2.2.3) dan (2.2.4), dengan memperhatikan kovarians sampel )(ˆ jγ , diperoleh
suatu himpunan persamaan-persamaan untuk estimator Yule-Walker Φ dan 2σ
dari Φ dan 2σ , yaitu
pp γΦΓ ˆˆˆ = , (2.2.5)
dan
pγφ ˆˆ)0(ˆˆ 2 ′−= γσ , (2.2.6)
dengan pjip ji 1,)](ˆ[ˆ=−= γΓ dan ))(ˆ,),2(ˆ),1(ˆ(ˆ ′= pp γγγ Kγ .
Jika 0)0(ˆ >γ , maka pΓ adalah non-singular. Bagi kedua sisi dari (2.2.5)
dengan )0(γ , sehingga diperoleh
ppR ρΦ ˆˆˆ 1−= , (2.2.7)
Bab II. Analisis Runtun Waktu 24
dan
]ˆˆˆ1)[0(ˆˆ 12ppp R ρρ −′−= γσ , (2.2.8)
dengan )0(ˆ/ˆ))(ˆ,),1(ˆ(ˆ γρρ pp p γρ =′= K .
Melalui Φ seperti yang didefinisikan pada (2.2.7), dapat ditunjukkan
bahwa 1ˆˆ1 1 ≠−−− pp zz φφ L untuk 1|| ≤z . Dengan demikian, model yang
ditaksir, yaitu
tptptt YYY εφφ =−−− −ˆ
1 L , )ˆ,0(WN~ 2σε t . (2.2.9)
adalah kausal. Autokovarians phhF ,,0),( K=γ dari model yang ditaksir harus
memenuhi 1+p persamaan linear
==
=−−−−− .0,ˆ
,,,1,0)(ˆ)1(ˆ)( 21 h
phphhh FpFF σ
γφγφγK
L
2.2.2 Estimasi Maximum Likelihood dan Least Squares
Misalkan tY adalah suatu proses ARMA(p,q) yang kausal, yaitu
qtqttptptt YYY −−−− ++++++= εθεθεθφφ LL 11011 , tε ∼ ),0(WN 2σ (2.2.10)
dengan 10 =θ . Dalam hal ini tY diasumsikan sebagai suatu proses Gaussian
dengan mean nol dan fungsi kovarians )(),( jiYYEji =κ . Misalkan
),,( 1 ′= nn YY KΥ , )ˆ,,ˆ(ˆ1 ′= nn YY KΥ dengan 01 =Y dan ),,|(ˆ
11 −= jjj YYYEY K
jYYSP YPj ,, 11 −
=K
2, ≥j . Misalkan pula nΓ menyatakan matriks kovarians,
)( nnn E ΥΥΓ ′= , dan asumsikan bahwa nΓ adalah non-singular.
Fungsi likelihood dari nΥ adalah
)exp()(det)2()( 1212/12/
nnnnn
nL ΥΓΥΓΓ −−− ′−= π . (2.2.11)
Perhitungan langsung untuk nΓ dan 1−nΓ dapat dihindari dengan menya-
takannya dalam prediktor-prediktor satu step jY , dan mean squared error nya
njv j ,,1,1 K=− , yang kedua hal ini secara mudah dapat dihitung secara rekursif
dari algoritma inovasi seperti pada proposisi berikut.
Bab II. Analisis Runtun Waktu 25
Proposisi 2.2.1. (Brockwell dan Davis 1991, The Innovations Algorithm atau
Algoritma Inovasi). Jika tY mempunyai mean nol dan ),()( jiYYE ji κ= , dengan
matriks njiji 1,)],([ =κ adalah non-singular untuk tiap-tiap K,2,1=n , maka
prediktor-prediktor satu step 0,ˆ1 ≥+ nYn , dan mean squared errornya 1, ≥nvn ,
adalah
≥−
== ∑
=−+−+
+ ,1 jika)ˆ(
,0 jika 0ˆ
111
1 nYY
nY n
jjnjnnj
n θ (2.2.12)
dan
Dengan menerapkan Proposisi 2.2.1 ini, pada akhirnya akan diperoleh
∑=
−−− −=−′−=′
n
jjjjnnnnnnn vYYD
11
211 /)ˆ()ˆ()ˆ( ΥΥΥΥΥΓΥ , (2.2.14)
dan
1102 )(det)(detdet −==Γ nn vvvDC L , (2.2.15)
dengan 10,, ][ −
=−= njijiiC θ dan ),,,(diag 110 −= nvvvD K . Sehingga, fungsi likelihood
(2.2.11) dari vektor nΥ tereduksi menjadi
−−= ∑=
−−
−−
n
jjjjn
nn vYYvvL
11
22/110
2/ /)ˆ(21exp)()2()( KπΓ . (2.2.16)
Melalui prediksi secara rekursi dapat ditunjukkan bahwa prediktor-
prediktor satu step 1ˆ
+iY dan mean squared error nya adalah
≥−+++=
=<≤−=
∑
∑
=−+−+−++
=−+−++
, ),ˆ(ˆ
),,max(1 ),ˆ(ˆ
111111
1111
miYYθYYY
qpmiYYθY
q
jjijiijpipii
i
jjijiiji
φφ L
(2.2.13)
(2.2.17)
Bab II. Analisis Runtun Waktu 26
dan
,)ˆ( 2211 iii rYYE σ=− ++ (2.2.17)
dengan ijθ dan ir diperoleh dengan mengaplikasikan Proposisi 2.2.2 ke dalam
fungsi kovarians. Substitusikan hasil ini ke dalam pernyataan umum (2.2.16),
diperoleh fungsi likelihood Gaussian dari vektor-vektor observasi
),,( 1 ′= nn YY KΥ yaitu
−−= ∑
=−
−−−
− n
jjjjn
n rYYrrL1
122
212/1
102/22 /)ˆ(exp)()2(),,( σπσσ KθΦ , (2.2.19)
dengan ),,( 1 ′= pφφ KΦ dan ),,( 1 ′= qθθ Kθ .
Penurunan secara parsial ),,(ln 2σθΦL terhadap 2σ , dan catatan
bahwa jY dan jr adalah independen terhadap 2σ , akan menghasilkan estimator
maximum likelihood Φ , θ dan 2σ yang memenuhi
)ˆ,ˆ(ˆ 12 θΦSn−=σ , (2.2.20)
dengan
∑=
−−=n
jjjj rYYS
11
2 /)ˆ()ˆ,ˆ( θΦ , (2.2.21)
dan Φ , θ adalah nilai-nilai dari Φ , θ yang meminimumkan
∑=
−−− +=
n
jjrnSnl
11
11 ln)),(ln(),( θΦθΦ . (2.2.22)
Dalam hal ini, ),( θΦl adalah fungsi likelihood yang tereduksi atau “reduced
likelihood”.
Prosedur estimasi alternatif adalah dengan cara meminimumkan jumlah
kuadrat terboboti
∑=
−−=n
jjjj rYYS
11
2 /)ˆ(),( θΦ , (2.2.23)
terhadap Φ dan θ . Estimator-estimator yang diperoleh melalui cara demikian
disebut dengan estimator “least squares” Φ~ dan θ~ dari Φ dan θ .
Bagaimanapun, untuk proses minimisasi ),( θΦS adalah penting untuk tidak
Bab II. Analisis Runtun Waktu 27
hanya membatasi Φ harus kausal, tetapi juga membatasi θ harus dapat dibalik
(invertible). Jika ∑ = −− n
j jrn1 1
1 ln adalah secara asimtotis dapat diabaikan jika
dibandingkan dengan ),(ln θΦS , seperti dalam kasus ketika θ adalah dibatasi
harus invertible (karena 1→nr ), maka dari (2.2.22), minimisasi S adalah
ekuivalen dengan minimisasi l dan estimator-estimator least squares dan
maximum likelihood akan mempunyai sifat-sifat asimtotis yang sama.
2.3 Teori Asimtotis
Penurunan distribusi dari berbagai statistik yang digunakan untuk
estimasi parameter dari data adalah hal yang penting agar dapat melakukan
inferensia statistik pada runtun waktu. Bagian ini menjelaskan berbagai definisi,
proposisi dan teorema dari teori asimtotis yang banyak digunakan dalam runtun
waktu. Pembahasan secara komprehensif dari teori asimtotis ini dapat pula
dilihat pada Serfling (1980), Billingsley (1979; Chapter 5), Brockwell dan Davis
(1991; Chapter 6), serta White (1999).
Berikut ini adalah beberapa konsep dasar tentang definisi yang berkaitan
dengan limits yang digunakan sebagai dasar untuk mengevaluasi konvergensi
atau sifat asimtotis dari suatu estimator.
Definisi 2.3.1. (White, 1999) Misalkan nb adalah suatu barisan bilangan real.
Jika ada suatu bilangan real b dan jika untuk setiap bilangan real 0>δ ada
suatu bilangan bulat )(δN sedemikan hingga untuk semua )(δNn ≥ ,
δ<− || bbn , maka b merupakan limit dari barisan nb .
Definisi 2.3.2. (White, 1999) (i) Suatu barisan nb dikatakan sebanyak-banyak-
nya pada orde λn , dinotasikan )( λnObn = , jika untuk beberapa bilangan real
terbatas 0>∆ , ada suatu bilangan bulat terbatas N sedemikan hingga untuk
semua Nn ≥ , ∆<− | | nbn λ . (ii) Suatu barisan nb adalah pada orde lebih kecil
dari λn , dinotasikan )( λnobn = , jika untuk setiap bilangan real 0>δ ada suatu
bilangan bulat terbatas )(δN sedemikian hingga untuk semua )(δNn ≥ ,
δλ <− | | nbn , yaitu 0 →−nbn λ .
Bab II. Analisis Runtun Waktu 28
2.3.1 Konvergen Hampir Pasti (Almost Sure Convergence)
Berikut ini adalah definisi tentang konvergen hampir pasti untuk barisan
variabel random dan proposisi tentang konvergen hampir pasti untuk barisan
vektor random.
Definisi 2.3.3. (White, 1999) Misalkan )( ⋅nX adalah suatu barisan variabel
random yang bernilai real. Dikatakan bahwa )(⋅nX adalah konvergen hampir
pasti (almost surely) pada suatu konstanta X , ditulis XX san →⋅ ..)( , jika ada
suatu bilangan real X sedemikian hingga 1)(: =→ XXP n ωω .
Proposisi 2.3.1. (White, 1999) Diberikan lkg ℜ→ℜ: ∈lk,( ℕ) dan sembarang
barisan vektor random nΧ yang berukuran 1×k sedemikian hingga
ΧΧ → ..san , dimana Χ adalah 1×k , jika g adalah kontinyu pada Χ , maka
)()( .. XX gg san → .
Bentuk konvergensi stokastik pada Definisi 2.3.3 dikenal dengan konsis-
tensi kuat (strong consistency) atau konvergen dengan probabilitas satu ( 1..pw ).
2.3.2 Konvergen dalam Probabilitas
Bagian ini dimulai dengan definisi tentang konvergen dalam probabiltas
dan konsep-konsep orde yang berkaitan, yang analog kuat dengan bagian
deterministik. Dengan pemahaman tersebut dapat dikembangkan konvergen
dalam probabilitas dari ekspansi Taylor yang akan digunakan untuk menurunkan
distribusi asimtotis sampel besar dari estimator-estimator parameter runtun
waktu. Bentuk konvergensi dalam probabilitas ini dikenal juga sebagai
konsistensi lemah (weak consistency).
Misalkan ,2,1, K=nan adalah suatu barisan bilangan real positif dan
misalkan ,2,1, K=nX n adalah suatu barisan variabel random yang semuanya
didefinisikan pada ruang probabilitas yang sama.
Bab II. Analisis Runtun Waktu 29
Definisi 2.3.4. (Brockwell dan Davis 1991, Konvergen dalam Probabilitas ke nol).
nX disebut konvergen dalam probabilitas ke nol, ditulis )1(pn oX = atau
0→pnX , jika untuk setiap 0>ε ,
0)|(| →> εnXP untuk ∞→n .
Definisi 2.3.5. (Brockwell dan Davis 1991, Keterbatasan dalam Probabilitas).
Suatu barisan nX adalah terbatas dalam probabilitas, ditulis )1(pn OX = , jika
untuk setiap 0>ε ada ),0()( ∞∈εδ sedemikian hingga
εεδ <> ))(|(| nXP untuk semua n .
Definisi 2.3.6. (Brockwell dan Davis 1991, Konvergen dalam Probabilitas dan
Orde dalam Probabilitas).
(i) nX konvergen dalam probabilitas ke suatu variabel random X , ditulis
XX pn → , jika dan hanya jika )1(pn oXX =− .
(ii) )( npn aoX = jika dan hanya jika )1(1pnn oXa =− .
(iii) )( npn aOX = jika dan hanya jika )1(1pnn OXa =− .
Proposisi 2.3.2. (Brockwell dan Davis, 1991) Jika nX dan nY , K,2,1=n , adalah
variabel random yang didefinisikan pada ruang probabilitas yang sama dan
0>na , 0>nb , K,2,1=n , maka
(i) jika )( npn aoX = dan )( npn boY = , diperoleh
)( nnpnn baoYX = ,
)),(max( nnpnn baoYX =+ ,
dan
)(|| rnp
rn aoX = , untuk 0>r ;
(ii) jika )( npn aoX = dan )( npn bOY = , diperoleh
)( nnpnn baoYX = .
Lagipula
(iii) pernyataan (i) tetap valid jika po adalah di setiap tempat tergantikan oleh
pO .
Bab II. Analisis Runtun Waktu 30
Berikut ini adalah teorema yang menunjukkan hubungan antara
konvergen hampir pasti dengan konvergen dalam probabilitas.
Teorema 2.3.1. (White, 1999) Misalkan nb adalah suatu barisan variabel
random. Jika bb san → .. , maka bb p
n → . Jika bb pn → , maka ada suatu
sub-barisan jnb sedemikian hingga bb sa
n j→ .. .
Definisi 2.3.4–2.3.6 berkembang secara natural untuk barisan dari vektor
random. Anggap sekarang bahwa ,2,1, K=nnΧ adalah suatu barisan dari
vektor random, yang semuanya didefinisikan pada ruang probabilitas yang sama
sedemikian hingga nΧ mempunyai k komponen ,,,, 21 nknn XXX K K,2,1=n .
Definisi 2.3.7. (Brockwell dan Davis 1991, Orde dalam Probabilitas untuk Vektor
Random).
(i) )( npn ao=Χ jika dan hanya jika )( npnj aoX = , kj ,,1 K= .
(ii) )( npn aO=Χ jika dan hanya jika )( npnj aOX = , kj ,,1 K= .
(iii) nΧ konvergen dalam probabilitas ke suatu vektor random Χ , ditulis
ΧΧ →pn , jika dan hanya jika` )1(pn o=− ΧΧ .
Konvergen dalam probabilitas dari nΧ ke Χ dapat juga dinyatakan
dalam jarak Euclidean ∑ = −=− kj jnjn XX1
2/12 ])([|| ΧΧ .
Proposisi 2.3.3. (Brockwell dan Davis, 1991) )1(pn o=−ΧΧ jika dan hanya
jika )1(|| pn o=− ΧΧ .
Proposisi 2.3.4. (Brockwell dan Davis, 1991) Jika 0→− pnn ΥΧ dan
ΥΥ →pn maka ΥΧ →p
n .
Proposisi 2.3.5. (Brockwell dan Davis, 1991) Jika nΧ adalah suatu barisan
dari vektor random berdimensi k sedemikian hingga ΧΧ →pn dan jika
:g ℝ k → ℝ m adalah suatu pemetaan kontinyu, maka )()( ΧΧ gg pn → .
Bab II. Analisis Runtun Waktu 31
Jika g adalah kontinyu pada a dan )1(pn oa +=Χ maka argumen dari
Proposisi 2.3.5 menjelaskan bahwa )1()()( pn oagg +=Χ . Jika asumsi pada g
diperkuat dengan mencakup keberadaan suatu turunan, maka penurunan
probabilistik yang sejalan untuk ekspansi Taylor dari fungsi tidak random di
sekitar titik a adalah mungkin. Berikut ini adalah beberapa kesejalanan yang
bermanfaat dalam penurunan distribusi asimtotis.
Proposisi 2.3.6. (Brockwell dan Davis, 1991) Misalkan nΧ adalah suatu
barisan variabel random sedemikian hingga )( npn rOaX += dengan ∈a ℝ dan
00 →< nr untuk ∞→n . Jika g adalah suatu fungsi dengan turunan ke s
pada a , maka
∑=
+−=s
j
snp
jn
j
n roaXj
agXg0
)(
)()(!
)()( ,
dengan )( jg adalah turunan ke j dari g dan gg =)0( .
Proposisi 2.3.7. (Brockwell dan Davis, 1991) Misalkan nΧ adalah suatu
barisan vektor random berukuran 1×k sedemikian hingga
)( npn rO=− aΧ ,
dengan ∈a ℝ k dan 0→nr untuk ∞→n . Jika g adalah suatu fungsi dari ke
ℝ k ke ℝ sedemikian hingga turunan ixg ∂∂ / adalah kontinyu dalam suatu
persekitaran (neighborhood) )(aN dari a , maka
∑=
+−∂∂
+=k
inpini
in roaX
xggg
1)())(()()( aaΧ .
2.3.3 Konvergen dalam Mean ke r, r > 0
Pada bagian ini akan diberikan konsep konvergen dalam mean ke r dari
suatu variabel random dan sifat-sifatnya. Jika 2=r maka variabel random
adalah konvergen dalam kuadrat mean (mean square convergence).
Bab II. Analisis Runtun Waktu 32
Definisi 2.3.8 (Konvergen dalam Mean ke r , 0>r ). Suatu barisan variabel
random nΧ dikatakan konvergen dalam mean ke r menuju X , ditulis
XX rn → , jika 0|| →− r
n XXE untuk ∞→n .
Proposisi 2.3.8 (Brockwell dan Davis 1991, Pertidaksamaan Chebychev). Jika
∞<rXE || , 0≥r dan 0>ε , maka
r
rXEXPε
ε||)|(| ≤≥ .
Proposisi berikut memberikan hubungan yang bermanfaat antara perilaku
dari momen dan orde dalam probabilitas.
Proposisi 2.3.9. (Brockwell dan Davis, 1991) Jika XX rn → maka
XX pn → .
Proposisi 2.3.10. (Brockwell dan Davis, 1991) Jika K,2,1 ,0 => nan , dan
)()( 22nn aOXE = , maka )( npn aOX = .
Proposisi 2.3.11. (Brockwell dan Davis, 1991) Jika µ→)( nXE dan
0)(Var →nX maka µ→ ..smnX (dan µ→p
nX dengan Proposisi 2.3.9).
2.3.4 Konvergen dalam Distribusi
Pernyataan XX smn → .. dan XX p
n → adalah bermanfaat hanya
ketika variabel random K,,, 21 XXX , didefinisikan pada ruang probabilitas yang
sama. Notasi konvergen dalam distribusi tergantung hanya pada fungsi distribusi
K,,, 21 XXX , adalah tetap berguna bahkan jika K,,, 21 XXX didefinisikan pada
ruang probabilitas yang berbeda.
Definisi 2.3.9. (Brockwell dan Davis 1991, Konvergen dalam Distribusi). Suatu
barisan nΧ dari vektor random berukuran k dengan fungsi distribusi )( ⋅n
FX
Bab II. Analisis Runtun Waktu 33
dikatakan konvergen dalam distribusi jika ada suatu vektor random berukuran k ,
Χ , sedemikian hingga
)()(lim xx XX FFnn
=∞→
untuk semua C∈x , (2.3.1)
dengan C adalah suatu himpunan titik-titik kontinuitas dari fungsi distribusi )(⋅XF
dari Χ . Jika (2.3.1) dipenuhi, dapat dikatakan bahwa nΧ konvergen dalam
distribusi ke Χ . Konvergensi distribusi ini dinotasikan dengan ΧΧ →dn atau
XX FF dn
→ .
Jika ΧΧ →dn maka distribusi dari nΧ dapat dengan baik didekati oleh
distribusi Χ untuk n yang besar.
Teorema 2.3.2. (Billingsley 1979, Karakterisasi dari Konvergen dalam Distribusi).
Jika ,, 10 FF K,2F adalah fungsi-fungsi distribusi pada ℝ k dengan fungsi
karakteristik ∫ℜ ′= k nn dFxi )()exp()( xttφ , K2,1,0=n , maka pernyataan berikut
adalah ekuivalen:
(i) 0FF dn → ,
(ii) ∫∫ ℜℜ → kk dFgdFg n )()()()( 0 xxxx , untuk setiap fungsi g yang kontinyu dan
terbatas.
(iii) )()(lim 0 tt φφ =∞→
nn, untuk setiap ∈′= ),,( 1 ktt Kt ℝ k .
Proposisi 2.3.12. (Brockwell dan Davis 1991, Aturan Cramer-Wold). Misalkan
nΧ adalah suatu barisan vektor random berdimensi k . Maka ΧΧ →dn jika
dan hanya jika ΧΧ λdn ′→′λ untuk semua ∈′= ),,( 1 kλλλ K ℝ k .
Proposisi 2.3.13. (Brockwell dan Davis, 1991) Jika ΧΧ →Pn maka
(i) 0|)exp()exp(| →′−′ ΧΧ titiE n , saat ∞←n untuk setiap ∈t ℝ k
dan
(ii) ΧΧ →dn .
Bab II. Analisis Runtun Waktu 34
Proposisi 2.3.14. (Brockwell dan Davis, 1991) Jika nΧ dan nΥ adalah
dua barisan vektor random berdimensi k sedemikian hingga )1(pnn o=−ΥΧ
dan ΧΧ →dn , maka ΧΥ →d
n .
Proposisi 2.3.15. (Brockwell dan Davis, 1991) Jika nΧ adalah suatu barisan
vektor random berdimensi k sedemikian hingga ΧΧ →dn dan jika :h
ℝ k →ℝ m adalah suatu pemetaan kontinu, maka )()( ΧΧ hh dn → .
Proposisi 2.3.16. (Brockwell dan Davis, 1991) Jika bΧ →dn dengan b
adalah suatu vektor konstanta berdimensi k , maka bΧ →pn .
Proposisi 2.3.17. (Brockwell dan Davis 1991, Hukum yang Lemah dari Bilangan
Besar atau The Weak Law of Large Numbers). Jika nX adalah suatu barisan
variabel random yang IID dengan suatu mean µ yang terbatas, maka
µ→pnX ,
dengan nXXX nn /)( 1 ++= L .
Proposisi 2.3.18. (Brockwell dan Davis, 1991) Jika nΧ dan nΥ adalah
barisan-barisan dari vektor random yang berdimensi k dan m , dan jika
ΧΧ →dn dan bΥ →d
n adalah suatu vektor konstanta, maka
→
bΧ
ΥΧ d
n
n . (2.3.2)
Proposisi 2.3.19. (Brockwell dan Davis, 1991) Jika nΧ dan nΥ adalah
barisan-barisan dari vektor random yang berdimensi k sedemikian hingga
ΧΧ →dn dan bΥ →d
n dengan b adalah suatu konstanta, maka
(i) bΧΥΧ +→+ dnn
dan
(ii) ΧbΧΥ ′→′ dnn .
Bab II. Analisis Runtun Waktu 35
Proposisi 2.3.20. (Brockwell dan Davis, 1991) Misalkan nΧ , K,2,1=n , dan
njΥ , ;,2,1 K=j K,2,1=n , adalah vektor-vektor random yang berdimensi k
sedemikian hingga
(i) jd
nj ΥΥ → saat ∞→n untuk setiap K,2,1=j ,
(ii) ΥΥ →dj saat ∞→j , dan
(iii) 0)|(|suplimlim =>−∞→∞→ εnjnnj P ΥΧ untuk setiap 0>ε .
Maka ΥΧ →dn untuk ∞→n .
Proposisi 2.3.21. (Brockwell dan Davis 1991, Hukum yang Lemah dari Bilangan
Besar untuk Moving Average atau The Weak Law of Large Numbers for Moving
Average). Jika nY adalah suatu moving average bersisi dua
∑∞
−∞=−=
jjtjnY εψ ,
dengan tε adalah IID dengan mean µ dan ∑∞
−∞=∞<
j j ||ψ . Maka
µψ
→ ∑
∞
−∞=jj
pnY .
(Catatan bahwa varians dari tε mungkin tidak terhingga.)
Berikut ini adalah teorema yang menjelaskan hubungan antara konvergen
dalam probabilitas dan konvergen dalam distribusi yang dikenal dengan Teorema
Slutsky.
Teorema 2.3.3. (Serfling 1980, Slutsky). Jika XX →dn dan cY →p
n ,
dengan c suatu konstanta yang berhingga. Maka
(i) cXYX +→+ dnn ;
(ii) cXYX →dnn ;
(iii) cXYX // →dnn jika 0≠c .
Bab II. Analisis Runtun Waktu 36
2.3.5 Teorema Limit Pusat dan Hasil-hasil yang Berkaitan
Banyak dari estimator-estimator yang digunakan dalam analisis runtun
waktu menjadi normal secara asimtotis seiring dengan jumlah pengamatan
menuju tak terhingga. Dalam bagian ini akan dikembangkan beberapa teknik
standar yang digunakan untuk membuktikan normalitas asimtotis.
Definisi 2.3.10. Suatu barisan variabel random nX disebut normal asimtotis
dengan ”mean” nµ dan ”deviasi standar” nσ , jika 0>nσ untuk n cukup besar
dan
ZX d
n
nn →−
σµ )(
, dengan )1,0(~ ΝZ .
Dalam notasi dari Serfling (1980), hal ini ditulis dengan nX adalah ),( 2nn σµΑΝ .
Catatan 1. Jika nX ),( 2nn
d σµΝ→ , ini tidaklah perlu bahwa )( nn XE=µ
atau bahwa )(2nn XVar=σ .
Catatan 2. Untuk membuktikan bahwa nX ),( 2nn
d σµΝ→ seringkali yang
paling sederhana adalah membuktikan hasil dalam bentuk ekuivalen
)2/exp()( 2ttnZ −→φ .
dengan )(⋅nZφ adalah fungsi karakteristik dari )(1
nnnn XZ µσ −− − . Pendekatan
ini bekerja dengan baik secara khusus ketika nX adalah suatu jumlah dari
variabel random independen seperti pada teorema berikut ini.
Teorema 2.3.4. (Brockwell dan Davis 1991, Teorema Limit Pusat atau The
Central Limit Theorem). Jika ),(IID~ 2σµnX dan nXXX nn /)( 1 ++= L ,
maka
nX )/,(N 2 nd σµ→ .
Catatan 3. Asumsi dari distribusi yang identik dalam Teorema 2.3.4 dapat
digantikan oleh yang lain, seperti suatu kondisi Lindeberg (lihat Billingsley, 1979;
halaman 310) dengan suatu batasan pada suatu varians terpotong dari variabel
random nX .
Bab II. Analisis Runtun Waktu 37
Proposisi 2.3.22. (Brockwell dan Davis, 1991) Jika nX ),( 2n
d σµΝ→ dengan
0→nσ untuk ∞→n , dan jika g adalah suatu fungsi yang dapat diturunkan
pada µ , maka
)( nXg ))(),(( 22n
d gg σµµ ′Ν→ .
Selanjutnya akan dikembangkan bentuk dari normalitas asimtotis untuk
vektor-k yang random, dengan 1≥k . Berikut adalah definisi yang berkaitan
dengan asismtotis normalitas multivariat.
Definisi 2.3.11. Suatu barisan nΧ dari vektor- k yang random adalah normal
asimtotis dengan ”vektor mean” nμ dan ”matriks kovarians” nΣ jika
(i) nΣ tidak mempunyai elemen-elemen diagonal yang nol untuk semua n
cukup besar, dan
(ii) nΧλ ′ ),( λλλ nnd Σμ ′′Ν→ untuk setiap ∈λ ℝ k sedemikian hingga
0>′ λλ nΣ untuk semua semua n cukup besar.
Proposisi 2.3.23. (Brockwell dan Davis, 1991) Jika nΧ ),( nnd ΣμΝ→ dan B
adalah sembarang matriks km× tidak nol sedemikian hingga matriks-matriks
BB n ′Σ , K,2,1=n , tidak mempunyai elemen-elemen diagonal nol, maka
nBΧ ),( BBB nnd ′Ν→ Σμ .
Proposisi 2.3.24. (Brockwell dan Davis, 1991)
Anggap bahwa nΧ ),( 2Σμ nd cΝ→ dengan Σ adalah suatu matriks simetrik
yang definit negatif dan 0→nc untuk ∞→n . Jika ))(,),(()( 1 ′= ΧΧΧg mgg K
adalah suatu pemetaan dari ℝ k ke ℝm sedemikian hingga tiap-tiap )(⋅ig dapat
diturunkan secara kontinyu dalam suatu persekitaran μ , dan jika DDΣ ′
mempunyai elemen-elemen diagonal yang semuanya tidak nol, dengan D
adalah suatu matriks )])(/[( μji xg ∂∂ berukuran km× , maka
)( nΧg )),(( 2 DDΣμg ′Ν→ nnd c .
Bab II. Analisis Runtun Waktu 38
Definisi 2.3.12. (Brockwell dan Davis 1991, Dependensi- )m . Suatu barisan
variabel random yang stasioner kuat nX dikatakan dependensi- m (dengan m
adalah suatu bilangan bulat non negatif) jika untuk tiap-tiap t , dua himpunan
variabel random , tjX j ≤ dan 1, ++≥ mtjX j adalah independen.
Catatan 4. Untuk melakukan pengecekan dependensi- m dari barisan yang
stasioner kuat ,2,1,0, K±±=tX t , hal ini adalah cukup dengan melakukan cek
independensi dari dua himpunan , tjX j ≤ dan 1, ++≥ mtjX j , karena
himpunan-himpunan itu mempunyai distribusi gabungan yang sama seperti
, tjX j ≤ dan 1, ++≥ mtjX j .
Catatan 5. Sifat dependensi- m mengeneralisasi independensi dalam cara yang
natural. Pengamatan-pengamatan dari suatu proses yang dependen-m adalah
independen untuk pengamatan-pengamatan yang terpisah dalam waktu lebih
dari m unit waktu. Untuk kasus khusus ketika 0=m , dependensi-m tereduksi
menjadi independensi. Suatu proses MA( q ) adalah proses yang dependen-m
dengan qm = .
Teorema 2.3.5. (Brockwell dan Davis 1991, Teorema Limit Pusat untuk Barisan
Dependen- m yang Stasioner Kuat atau The Central Limit Theorem for Strictly
Stationary m -Dependent Sequences). Jika nX adalah suatu barisan variabel
random dependen- m yang stasioner kuat dengan mean nol dan fungsi
autokovarians )(⋅γ , dan jika 0)(2)0( 1 ≠+= ∑ =mjm jv γγ , maka:
(i) mnn
vXn =∞→
)(lim Var ,
(ii) nX )/,0( nvmd Ν→ .
2.4 Sifat Normalitas Asimtotis Estimator Model ARMA
Pada bagian ini akan diberikan penjabaran sifat-sifat estimator model
ARMA beserta sifat normalitas asimtotisnya. Sifat-sifat ini adalah bagian penting
untuk proses inferensia statistik berkaitan dengan signifikansi parameter model
Bab II. Analisis Runtun Waktu 39
ARMA. Secara umum, penurunan secara teoritik akan dilakukan pada estimator
Yule-Walker, Least Squares dan Maximum Likelihood.
2.4.1 Sifat Estimator Yule-Walker
Untuk mengetahui sifat asimtotis dari estimator Yule-Walker ini,
asumsikan bahwa tY adalah suatu proses AR(p) yang kausal
tptptt YYY εφφ =−−− −L1 , (2.4.1)
dengan ),0(IID~ 2σε t . Penaksir Yule-Walker dari Φ dan 2σ adalah seperti
yang diberikan pada persamaan (2.2.7) dan (2.2.8), atau ekuivalen dengan
pp γΓΦ ˆˆˆ 1−= ,
dan Φγ ˆˆ)0(ˆˆ 2
pγ ′−=σ .
Ini adalah lebih mudah untuk menyatakan (2.4.1) dalam bentuk
εXΦY += , (2.4.2)
dengan ),,( 1 ′= nYY KY , ),,( 1 ′= nεε Kε dan X adalah suatu matrik pn × ,
=
−−−
−
−−
pnnn
p
p
YYY
YYYYYY
L
MOMM
L
L
21
201
110
X .
Karena (2.4.2) adalah sama dengan suatu model linear umum, maka ”taksiran
regresi linear” *Φ dari Φ didefinisikan dengan
YXXXΦ ′′= −1* )( . (2.4.3)
Vektor *Φ bukanlah suatu estimator yang biasa karena estimator ini tergantung
pada nilai-nilai pnpp YYY −−− ,,, 21 K dan tidak hanya tergantung pada nYY ,,1 K .
Proposisi 2.4.1. (Brockwell dan Davis, 1991) Dengan *Φ didefinisikan seperti
dalam (2.4.3)
),(N)( 12*2/1 −→− pdn Γ0ΦΦ σ .
Bab II. Analisis Runtun Waktu 40
Berikut ini adalah beberapa teorema yang berkaitan dengan distribusi
asimtotis dari estimator Yule-Walker.
Teorema 2.4.1. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses
AR(p) yang kausal seperti pada Persamaan (2.4.1) dengan ),0(IID~ 2σε t ,
dan Φ adalah estimator Yule-Walker dari Φ , maka
),()ˆ( 122/1 −Ν→− pdn Γ0ΦΦ σ ,
dengan pΓ adalah suatu matrik kovarians pjiji 1,)]([ =−γ . Selain itu,
22ˆ σσ →p .
Teorema 2.4.2. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses
AR(p) yang kausal seperti pada Persamaan (2.4.1) dengan ),0(IID~ 2σε t ,
dan jika pmR mmmmmm >′=′= ,ˆˆ)ˆ,,ˆ(ˆ1 ρΦ φφ K , maka
),()ˆ( 122/1 −Ν→− md
mmn Γ0ΦΦ σ ,
dengan mΦ adalah suatu vektor koefisien dari prediktor linear terbaik mΦ′ mΥ
dari 1+mY berdasarkan pada mΥ ),,( 1 ′= YYm K , yaitu mmm R ρΦ 1−= . Secara
khusus untuk pm > ,
)1,0(Nˆ2/1 →dmmn φ .
2.4.2 Sifat Estimator Maximum Likelihood dan Least Squares
Pada bagian ini akan dijelaskan normalitas asimtotis suatu estimator dari
vektor koefisien untuk proses ARMA(p,q) yang kausal dan invertible yang
mempunyai distribusi asimtotis yang sama seperti estimator least squares dan
maximum likelihood.
Ingat kembali bahwa estimator-estimator least squares meminimumkan
jumlah kuadrat,
∑=
−−=n
tttt rYYS
11
2 /)ˆ(),( θΦ .
Bab II. Analisis Runtun Waktu 41
Berikut ini adalah pendekatan atau aproksimasi untuk ),( θΦS . Pertama, dekati
suatu ”standardized innovations” 2/11)/()ˆ( −− ttt rYY dengan )( θΦ,tε , yaitu
−−−−−=
−−==
−−−− ).,(),()( ),,()( ,)(
1111
111122
11
θΦθΦθΦ
θΦθΦθΦ
qnqnpnpnnn YYY,
YY,Y,
εθεθφφε
εθφεε
LL
M (2.4.4)
Dengan asumsi invertibilitas, tε dapat ditulis dalam bentuk,
∑∞
=−+=
1jjtjtt YY πε ,
sehingga (2.4.7) dapat dijabarkan sebagai
∑−
=−+=
1
1),(
t
jjtjtt YY πε θΦ .
Gunakan hubungan-hubungan berikut
∑−
=≤−
1
11||),(
t
jjtt Yπεε θΦ ,
221
2),(ˆ θΦtttt rYY εσ ≤=− − ,
dan
21
2)1()ˆ( σε −=−− −tttt rYY ,
dapat ditunjukkan bahwa
≤
≤−−
≤−
−
,),( ,)/()ˆ(),(
,),(
22/1
1
1
kacrYY
ac
t
ttttt
ttt
θΦθΦθΦ
ε
ε
εε
(2.4.5)
untuk semua t dengan 21,, cca dan k adalah konstanta-konstanta dengan
10 << a .
Dalam hal ini adalah penting untuk membuat satu pendekatan lanjut
untuk 2/11)/()ˆ( −− ttt rYY dengan melinearisasi ),( θΦtε pada suatu nilai estimasi
Bab II. Analisis Runtun Waktu 42
awal ),( 00 θΦ dari ),( θΦ . Dengan demikian, jika ),,,,,( 11 qp θθφφ KK=′β dan
),( 000 θΦβ ′′=′ , maka )(βtε dapat didekati dengan
)()( 00 ββDβ −′− ttε ,
dengan ))(,),(( 0,01, ββD qpttt DD +=′ K , dan
,)(
)(,i
titD
βε∂
∂−=
ββ qpi += ,,1 K .
Selanjutnya, dengan meminimisasi jumlah kuadrat
∑=
−′−n
ttt
1
200 ))()(( ββDβε .
akan diperoleh suatu estimator +β dari β yang mempunyai sifat-sifat asimtotis
seperti estimator least squares β~ . Secara khusus, jika dimisalkan bahwa
))(,),(()( 0010 ′= βββε nεε K dan tulis D untuk matriks ukuran )( qpn +× , yaitu
),,( 1 ′nDD K , maka estimasi regresi linear dari 0βββ −=∆ adalah
)()( 01 βεΔβ DDD ′′= −
∧,
sehingga
∧+ += Δβββ 0 .
Sifat normalitas asimtotis dari estimator ini adalah kenyataan yang telah terbukti
mengikuti teorema berikut ini.
Teorema 2.4.3. (Brockwell dan Davis, 1991) Jika tY adalah suatu proses
ARMA(p,q) yang kausal dan invertible
qtqttptptt YYY −−−− +++=−−− εθεθεφφ LL 1111 ,
dengan ),0(IID~ 2σε t dan dengan )(zφ dan )(zθ tidak mempunyai pembuat
nol. Anggap bahwa ),,( ,0010 ′= +qpββ Kβ adalah suatu estimator awal dari
),,,,,( 11 ′= qp θθφφ KKβ sedemikian hingga )( 4/10
−=− no pββ , dan +β adalah
estimator yang dikonstruksi dari 0β seperti yang dijelaskan di atas. Maka
(i) )(121 β−− →′ VDDn p σ
Bab II. Analisis Runtun Waktu 43
dengan )(βV adalah suatu matriks nonsingular ukuran )()( qpqp +×+ dan
(ii) ))(,()(2/1 β0Nββ Vn d→−+ .
Sebagai tambahan untuk estimator least squares β~ , diperoleh
(iii) ))(,()~(2/1 β0Nββ Vn d→− .
- 44 -
BAB III FEEDFORWARD NEURAL NETWORKS
Bentuk arsitektur neural networks (NN) yang secara umum paling banyak
digunakan dalam aplikasi di bidang teknik atau rekayasa adalah Multi Layer
Perceptrons (MLP) yang juga dikenal dengan Feedforward Neural Networks
(FFNN). Pemodelan regresi, runtun waktu dan signal processing adalah salah
satu aplikasi NN yang biasanya berdasarkan pada arsitektur FFNN.
Dalam pemodelan statistik, FFNN dapat dipandang sebagai suatu kelas
yang fleksibel dari fungsi-fungsi nonlinear. Secara umum, model ini bekerja
dengan menerima suatu vektor dari input x dan kemudian menghitung suatu
respon atau output )(ˆ xy dengan memproses (propagating) x melalui elemen-
elemen proses yang saling terkait. Elemen-elemen proses tersusun dalam
beberapa lapis (layer) dan data input, x , mengalir dari satu lapis ke lapis
berikutnya secara berurutan. Dalam tiap-tiap lapis, input-input ditransformasi
kedalam lapis secara nonlinear oleh elemen-elemen proses dan kemudian
diproses maju ke lapis berikutnya. Akhirnya, nilai-nilai output y , yang dapat
berupa nilai-nilai skalar atau vektor, dihitung pada lapis output.
Gambar 3.1 adalah suatu contoh dari bentuk khusus FFNN dengan satu
lapis tersembunyi yang lebih dikenal dengan FFNN dengan satu lapis tersem-
bunyi yang terdiri dari q unit neuron dan lapis output yang hanya terdiri dari satu
unit neuron. Dalam arsitektur ini, nilai-nilai respon atau output y dihitung dengan
++= ∑∑
==
p
i
ohjki
hji
q
j
hj
oj
ok bbxwfwfy
1)(
1)( ])([ˆ , (3.1)
dengan :
)(kix = variabel input sebanyak p , ),,2,1( pi L=
)(ˆ ky = nilai dugaan dari variabel output
k = indeks pasangan data input-target ),( )()( kki yx , nk ,,2,1 K= hjiw = bobot dari input ke- i yang menuju neuron ke- j pada lapis
tersembunyi, ),,2,1( qj L=
Bab III. Feedforward Neural Networks
45
hjb = bias pada neuron ke- j pada lapis tersembunyi, ),,2,1( qj L= hjf = fungsi aktifasi di neuron ke- j pada lapis tersembunyi ojw = bobot dari neuron ke- j di lapis tersembunyi yang menuju neuron
pada lapis output
ob = bias pada neuron di lapis output of = fungsi aktifasi pada neuron di lapis output.
Lapis Output Lapis Input Lapis Tersembunyi (Variabel Dependen/
(Variabel Independen) (q unit neuron) Respons)
Gambar 3.1. Arsitektur FFNN dengan satu lapis tersembunyi, p unit input, q unit neuron di lapis tersembunyi, dan satu unit neuron output.
Bentuk nonlinear fungsi y terjadi melalui suatu fungsi yang disebut fungsi
aktifasi hjf pada lapis tersembunyi dan of pada lapis output, biasanya fungsi
halus atau smooth seperti fungsi logistik sigmoid atau fungsi tanh.
Beberapa notasi akan digunakan untuk memperjelas penjabaran proses
input-output FFNN pada Gambar 3.1 di atas. Superscript “ h ” digunakan sebagai
indeks yang menyatakan lapis tersembunyi dan “ o ” untuk indeks yang
menyatakan lapis output. Digunakan juga hjv untuk menyatakan suatu vektor
Y
hjiw
hjb 1
X1
X2
Xp
)(1 ⋅hf
)(2 ⋅hf
)(3 ⋅hf
)(⋅hqf
M
M )(⋅•
of
ojw
1
ob
Bab III. Feedforward Neural Networks
46
nilai-nilai setelah proses penjumlahan input dan bobot-bobot (bias termasuk di
dalamnya) pada lapis tersembunyi di neuron ke- j , yaitu
∑=
+=p
i
hji
hji
hj bxwv
1, (3.2a)
atau untuk data ke k diperoleh
∑=
+=p
i
hjki
hji
hkj bxwv
1)()( . (3.2b)
Output pada lapis tersembunyi yang terproses di neuron ke- j adalah
)( hj
hj
hj vfa = , (3.3a)
atau untuk data ke k diperoleh
)()(1
)()()( ∑=
+==p
i
hjki
hji
hj
hkj
hj
hkj bxwfvfa . (3.3b)
Dengan cara yang sama, maka beberapa notasi yang menyatakan
penjumlahan input dan bobot-bobot pada lapis output adalah
oq
j
hj
oj
o bawv += ∑=1
, (3.4a)
atau untuk data ke k diperoleh
oq
j
hkj
oj
ok bawv += ∑
=1)()( . (3.4b)
Output pada lapis output adalah
)(ˆ )()()(ok
ookk vfay == . (3.5)
Dengan demikian, hubungan antara input )(kix , pi ,,2,1 K= dan nk ,,2,1 K= ,
dengan output )(ˆ ky adalah
∑=
+=q
j
ohkj
hj
oj
ok bvfwfy
1)()( ))((ˆ
++= ∑∑
==
p
i
ohjki
hji
q
j
hj
oj
o bbxwfwf1
)(1
])([
),,,( )()(2)(1 kpkk xxxF K= (3.6)
Bab III. Feedforward Neural Networks
47
Pemetaan secara keseluruhan yang terjadi pada FFNN ini selanjutnya dapat
ditulis dalam bentuk
=
),,,(
),,,(),,,(
ˆ
ˆˆ
)()(2)(1
)2()2(2)2(1
)1()1(2)1(1
)(
)2(
)1(
npnn
p
p
n xxxF
xxxFxxxF
y
yy
K
M
K
K
M. (3.7)
3.1 Algoritma Backpropagation
Pada bagian ini akan diberikan hasil-hasil kajian teoritik yaitu penurunan
dan pembuktian algoritma backpropagation pada FFNN yang banyak digunakan
untuk analisis runtun waktu dan regresi. Hasil kajian ini telah dipublikasikan dan
secara lengkap dapat dilihat pada Suhartono dkk. (2005d).
Ripley (1996) menyatakan bahwa keberadaan pendekatan suatu fungsi
adalah tidak ada gunanya jika tidak diketahui cara untuk menemukan
pendekatan tersebut. Hal inilah yang mendorong banyaknya penelitian tentang
neural network selama bertahun-tahun. Ide dasar tentang pendekatan dengan
NN diawali oleh pembelajaran Rumelhart–McClelland (1986) yaitu untuk
melakukan fitting terhadap parameter-parameter fungsi dengan metode least
squares. Misalkan kita mempunyai beberapa pasang sampel input dan target
),( )()( kk yx , dan output dari network adalah ),(ˆ wxy f= . Maka, vektor parameter
w dipilih dengan cara meminimumkan
∑=
−=n
kkk xfyQ
1
2)()( )];([)( ww (3.1.1)
seperti yang dilakukan dalam regresi nonlinear (Bates dan Watts, 1998; Seber
dan Wild, 1989).
Secara umum, aplikasi nonlinear least squares pada neural networks
terbagi dalam dua pendekatan untuk mengupdate bobot-bobot, yaitu yang
dikenal dengan adaptasi off-line dan on-line. Pada adaptasi off-line, bobot-bobot
diupdate pada setiap pasangan input-output, sedangkan di adaptasi on-line atau
yang dikenal dengan batch mode, bobot-bobot hanya diupdate setelah seluruh
Bab III. Feedforward Neural Networks
48
pasangan data input-output pada data training terproses. Bagian ini hanya
menjelaskan aplikasi dari algoritma nonlinear least squares pada training yang
diproses secara batch mode dari suatu FFNN.
Gradient descent merupakan salah satu dari kelompok metode optimisasi
yang paling tua. Metode ini berdasarkan pada suatu pendekatan linear dari
fungsi kesalahan (error) yaitu
)()()( wwwww QQQ T ′∆+≈∆+ . (3.1.2)
Bobot-bobot diupdate melalui
0 ),( >′−=∆ ηη ww Q , (3.1.3)
dengan η adalah suatu koefisien pembelajaran (learning rate).
Berikut ini adalah corollary yang merupakan modifikasi algoritma back-
propagation dengan metode gradient descent dari Moller (1997). Corollary ini
adalah khusus untuk mendapatkan bobot-bobot pada model FFNN yang
digunakan untuk peramalan runtun waktu univariat seperti pada Gambar 3.1.
Corollary 3.1.1. )(wQ′ atau ww ∂∂ /)(Q adalah gradien dari n pasangan data
input-target yang dapat dihitung dengan satu proses langkah maju (forward
propagation) dan satu proses langkah mundur (backward propagation). Jika
pemrosesan maju dari input ke lapis tersembunyi di neuron ke- j adalah
)( )()(h
kjhj
hkj vfa = , dengan ∑
=+=
p
i
hjki
hji
hkj bxwv
1)()( ,
dan pemrosesan maju dari lapis tersembunyi ke lapis output adalah
)( )()(ok
ook vfa = , dengan ∑
=+=
q
j
ohkj
oj
ok bawv
1)()( ,
maka pemrosesan mundur dari lapis output ke lapis tersembunyi (untuk update
bobot-bobot pada lapis output) adalah
hkj
n
k
oko
ja
wQ
)(1
)()(
∑=
−=∂
∂δ
w , dan ∑=
−=∂
∂ n
k
okob
Q1
)()(
δw , (3.1.4)
dengan
−= ∑
=
′q
l
hkl
ol
okk
ok awfyy
1)()()()( ]ˆ[δ ,
Bab III. Feedforward Neural Networks
49
dan pemrosesan mundur dari lapis tersembunyi ke input (untuk update bobot-
bobot pada lapis tersembunyi) adalah
)(1
)()(
kin
k
hkjh
jix
wQ
∑=
−=∂
∂δ
w , dan ∑=
−=∂
∂ n
k
hkjh
jbQ
1)(
)(δ
w , (3.1.5)
dengan )]([ )()()(h
kjhj
oj
ok
hkj nfw ′= δδ .
Bukti: Perhatikan kembali arsitektur umum dari suatu FFNN dengan satu lapis
tersembunyi seperti pada Gambar 3.1 di atas dan definisikan suatu fungsi biaya
sebagai suatu jumlahan dari kuadrat error data training
∑=
−=n
kkk yyQ
1
2)()( )ˆ(
21 (3.1.6)
dimana :
)(ky = target (nilai sebenarnya dari variabel output atau respon)
)(ˆ ky = output dari lapis terakhir (lapis output)
k = indeks pasangan input-target yaitu ),( )()( kk yx yang digunakan pada
training dengan nk ,,2,1 K= .
Seperti yang dijelaskan sebelumnya, backpropagation adalah suatu
algoritma untuk mendapatkan bobot-bobot pada tiap-tiap lapis yang dinotasikan
dengan hjiw dan o
jw , dengan cara meminimumkan nilai Q seperti Persamaan
(3.1.6) pada keseluruhan himpunan training. Untuk penyederhanaan notasi,
digunakan simbol w untuk vektor
,,2,1 ,,,2,1:, qjpiww oj
hji KK ===w .
Sehingga fungsi obyektif pada Persamaan (3.1.6) yang akan diminimalkan dapat
ditulis
∑ ∑ ∑= = =
++−=n
k
q
j
ohj
p
iki
hji
hj
oj
ok bbxwfwfyQ
1
2
1 1)()( ])))((([
21)(w . (3.1.7)
Penyelesaian masalah optimisasi di atas akan dilakukan dengan meng-
gunakan suatu algoritma gradient, yaitu
Bab III. Feedforward Neural Networks
50
www
dQ )(∂
−=∆ η . (3.1.8a)
atau
wwwwd
Q mmm
)()()1( )(∂
−=+ η . (3.1.8b)
Untuk memformulasikan algoritma tersebut, dibutuhkan perhitungan turunan
parsial dari Q terhadap tiap-tiap komponen w . Pertama, akan dilakukan
perhitungan turunan parsial dari Q terhadap ojw . Untuk itu, tulis kembali
persamaan (3.1.6) dalam
∑ ∑= =
+−=n
k
q
l
ohkl
ol
ok bawfyQ
1
2
1)()( ])([
21)(w , (3.1.9)
dengan ql ,,2,1 K= dan
)()(1
)()()( ∑=
+==p
i
hjki
hli
hl
hkl
hl
hkl bxwfvfa .
Dengan menggunakan aturan berantai pada perhitungan turunan parsial, yaitu
oj
ok
ok
ok
ok
oj w
v
v
a
aQ
wQ
∂
∂
∂
∂
∂
∂=
∂
∂ )(
)(
)(
)(
)()( ww , (3.1.10)
diperoleh
hkj
q
l
ohkl
ol
on
kkko
jabawfyy
wQ
)(1
)(1
)()( ]ˆ[)(
+−−=
∂
∂∑∑=
′
=
w , (3.1.11)
dengan :'of ℜ → ℜ adalah turunan dari of terhadap okv )( . Untuk menyeder-
hanakan notasi, digunakan
+−= ∑
=
′q
l
ohkl
ol
okk
ok bawfyy
1)()()()( ]ˆ[δ , (3.1.12)
sehingga diperoleh
hkj
n
k
oko
ja
wQ
)(1
)()(
∑=
−=∂
∂δ
w . o
Melalui cara yang sama, yaitu dengan aturan berantai, perhitungan
turunan parsial dari Q terhadap ob adalah
Bab III. Feedforward Neural Networks
51
o
ok
ok
ok
ok
o b
v
v
a
aQ
bQ
∂
∂
∂
∂
∂
∂=
∂
∂ )(
)(
)(
)(
)()( ww , (3.1.13)
akan diperoleh
+−−=
∂
∂∑∑=
′
=
oq
l
hkl
ol
on
kkko
bawfyyb
Q1
)(1
)()( ]ˆ[)(w , (3.1.14)
atau
∑=
−=∂
∂ n
k
okob
Q1
)()(
δw , o
dengan ok )(δ seperti pada persamaan (3.1.12).
Selanjutnya akan dilakukan penurunan perhitungan turunan parsial dari
Q terhadap hjiw . Melalui aturan berantai pada perhitungan turunan parsial, yaitu
hji
hkj
hkj
hkj
hkj
ok
ok
ok
ok
hji w
v
v
a
a
v
v
a
aQ
wQ
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂=
∂
∂ )(
)(
)(
)(
)(
)(
)(
)(
)()( ww , (3.1.15)
sehingga diperoleh
)(1
)(1
)(1
)()( )ˆ()(ki
q
l
hjki
hli
hj
oj
q
l
ohkl
ol
n
k
okkh
jixbxwfwbawfyy
wQ
+
+−−=
∂
∂∑∑∑=
′
==
′w , (3.1.16)
dengan :hjf ′ ℜ → ℜ adalah turunan dari h
jf ′ terhadap hkjv )( . Penyederhanaan
notasi ini dengan menggunakan ok)(δ seperti pada persamaan (3.1.12), diperoleh
)()(1
)( )]([)()(ki
hkj
hj
n
k
oj
okh
jixvfw
wQ ′
=∑−=
∂
∂δ
w , (3.1.17)
atau
)(1
)()(
kin
k
hkjh
jix
wQ
∑=
−=∂
∂δ
w , dengan )]([ )()()(h
kjhj
oj
ok
hkj vfw ′= δδ . o
Dengan cara yang sama, penurunan perhitungan turunan parsial dari Q
terhadap hjb dengan aturan berantai, yaitu
Bab III. Feedforward Neural Networks
52
hj
hkj
hkj
hkj
hkj
ok
ok
ok
ok
hj b
v
v
a
a
v
v
a
aQ
bQ
∂
∂
∂
∂
∂
∂
∂
∂
∂
∂=
∂
∂ )(
)(
)(
)(
)(
)(
)(
)(
)()( ww , (3.1.18)
menghasilkan
+
+−−=
∂
∂∑∑∑=
′
==
′q
l
hjki
hli
hj
oj
q
l
ohkl
ol
n
k
okkh
jbxwfwbawfyy
bQ
1)(
1)(
1)()( )ˆ()(w , (3.1.19)
atau
)]([)()()(
1)(
hkj
hj
n
k
oj
okh
jvfw
bQ ′
=∑−=
∂
∂δ
w , (3.1.20)
atau
∑=
−=∂
∂ n
k
hkjh
jbQ
1)(
)(δ
w , dengan )]([ )()()(h
kjhj
oj
ok
hkj vfw ′= δδ . o
Pada tahap ini, formula dari algoritma gradien untuk mengupdate bobot-
bobot dari FFNN telah dapat diturunkan. Dua persamaan update untuk bobot hjiw , h
jb , ojw , dan ob akan diberikan secara terpisah, yaitu
a. Untuk updating bobot-bobot dan bias pada lapis output :
∑=
++=
n
k
mhkj
mok
moj
moj aww
1
)()(
)()(
)()1(δη , (3.1.21a)
∑=
++=
n
k
mok
momo bb1
)()(
)()1(δη . (3.1.21b)
b. Untuk updating bobot-bobot dan bias pada lapis tersembunyi :
)(1
)()(
)()1(ki
n
k
mhkj
mhji
mhji xww ∑
=
++= δη , (3.1.22a)
∑=
++=
n
k
mhkj
mhj
mhj bb
1
)()(
)()1(δη . (3.1.22b)
dengan η adalah koefisien pembelajaran (learning rate).
Bab III. Feedforward Neural Networks
53
Ilustrasi jalannya persamaan update untuk bobot-bobot di lapis output ojw
dapat dilihat pada Gambar 3.2, sedangkan untuk di lapis tersembunyi hjiw dapat
dilihat pada Gambar 3.3.
Gambar 3.2. Ilustrasi dari persamaan update bobot-bobot pada lapis output
Persamaan update di atas dikenal dalam beberapa literatur sebagai algoritma
backpropagation. Alasan untuk nama “backpropagation” adalah kenyataan
bahwa selisih-selisih output dalam )(
)(mo
kδ diproses mundur dari lapis output
menuju ke lapis tersembunyi, yang kemudian digunakan dalam persamaan
update untuk bobot-bobot pada lapis tersembunyi, seperti yang diilustrasikan
pada Gambar 3.3.
Sekali lagi, dalam bagian ini pembahasan hanya difokuskan pada FFNN
(MLP) dengan satu lapis tersembunyi dan satu neuron pada lapis output. Secara
Bab III. Feedforward Neural Networks
54
umum, persamaan update untuk FFNN dengan lebih dari satu lapis tersembunyi
dan beberapa neuron di lapis output juga dapat diturunkan seperti di atas.
Gambar 3.3. Ilustrasi dari persamaan update untuk bobot-bobot pada lapis tersembunyi
3.2 Konsistensi Estimator Backpropagation
Pada bagian sebelumnya telah dijelaskan bahwa tujuan utama dari
pembelajaran network melalui backpropagatian adalah menemukan suatu
penyelesaian *w pada suatu permasalahan optimisasi )(minarg wQWw∈ yaitu
( )2/)),([()(minarg 2* www XfYEQWw
−==∈
, (3.2.1)
Bab III. Feedforward Neural Networks
55
dengan *w adalah indeks dari bobot network yang optimal. Untuk kesamaan
notasi maka untuk selanjutnya output network pada Persamaan (3.1) akan ditulis
dalam bentuk
′+== ∑=
q
jjj xFfo
10 )(),( γψββwx , (3.2.2)
dengan ),,,( 10 pxxx K=x adalah input-input network, ),( ′′′= γβw adalah
bobot-bobot network secara keseluruhan, ),,,( 10 ′= qβββ Kβ adalah bobot-
bobot dari lapis tersembunyi ke output, dan ),,,( 21 ′′′′= qγγγγ K adalah bobot-
bobot network dari input ke lapis tersembunyi, ),,,( 10 ′≡ jpjjj γγγ Kγ .
Dengan penalti kuadrat error, pembelajaran pada network harus sampai
pada *w , yang menyelesaikan
( )2/)]|(([]2/)),([(min 22 XYEYEXfYEWw
−=−∈
w
))2/)],()|(([ 2wXfXYEE −+ . (3.2.3)
Menemukan *w merupakan permasalahan yang secara tepat sama dengan
mendapatkan parameter-parameter dari suatu pendekatan least squares yang
optimal untuk )|( XYE , ekspektasi bersyarat dari Y diberikan X .
Secara khusus, jika diberikan pasangan input dan target ),( tt XY dengan
nt ,,2,1 K= , yang diambil secara random dari suatu populasi tertentu, maka nw
adalah estimator least squares yang nonlinear pada permasalahan optimisasi
∑=
−
∈−=
n
tttn
WwXfYnQ
1
21 2/)),(()(minarg ww . (3.2.4)
Regresi nonlinear merupakan metode yang telah dianalisis secara lengkap dalam
literatur-literatur statistik dan ekonometrika. Pada bagian ini akan diberikan kajian
teoritis berkaitan dengan sifat-sifat estimator backpropagation nw , khususnya
tentang konsistensi estimator tersebut. Sebagian besar kajian ini dapat dilihat
pada White (1989a, 1989b).
Misalkan bahwa estimator-estimator m dari nw adalah memenuhi
∑ =− →n
tsa
ntZmn 1..1 0)ˆ,( w , dengan llvm ℜ→ℜ×ℜ: . Estimator-estimator m
secara umum adalah konsisten untuk suatu penyelesaian *w pada persamaan
Bab III. Feedforward Neural Networks
56
0)),(( =wZmE t . Pendekatan stokastik memberikan suatu metode alternatif
untuk mengestimasi *w . Hasil-hasil untuk backpropagation selanjutnya meng-
ikuti suatu kasus khusus dari estimasi m secara rekursif.
Berikut ini adalah beberapa notasi yang digunakan. Untuk suatu vektor
1×v yaitu ),,( 1 ′= vzz Kz , dapat ditulis bahwa ∑ == vi iz1
2/12 )(|| z . Untuk lℜ⊂W
dan nw suatu barisan vektor 1×l , Ww →n berarti bahwa
0||inf →−∈ ww nWw untuk ∞→n . Kita tulis ∞→nw ketika ∞→|| nw .
Untuk lℜ∈*w dan 0>ε , |:| ** εε <−≡ wwwS .
Proposisi 3.2.1. (White, 1989b) Misalkan nZ adalah suatu barisan vektor
1×v yang random IID sedemikian hingga ∞<∆<|| nZ . Misalkan llvm ℜ→ℜ×ℜ: adalah dapat diturunkan secara kontinu pada lv ℜ×ℜ dan
anggap bahwa untuk setiap w dalam lℜ , ∞<≡ )),(()( wZnmEwM . Misalkan
+ℜ∈nη adalah suatu barisan menurun sedemikian hingga ∑∞
=∞=
1n nη ,
∞<− −−
−→∞ )sup(lim 1
11
nnn ηη dan ∑∞
=∞<
1ndnη untuk suatu 1>d . Definisikan suatu
estimator m rekursif )~,(~~11 −− += nnnnn m wZww η untuk ),2,1( K=n , dengan
lℜ∈0~w adalah sebarang.
(a). Anggap bahwa ada ℜ→ℜlQ : dapat diturunkan secara kontinu dua kali
sedemikian hingga 0)()( ≤∇ ww MQ untuk semua w dalam lℜ . Maka
salah satu 0)()(:~ * =∇≡→ wwwWw MQn atau ∞→nw~ dengan
probabilitas 1.
(b). Anggap bahwa lℜ∈*w adalah sedemikian hingga 0]~Pr[ * >→ εSnw
untuk 0>ε . Maka 0)( * =wM . Jika, sebagai tambahan, M adalah dapat
diturunkan secara kontinyu dalam persekitaran dari *w dengan
)( ** wMM ∇≡∇ terbatas, dan jika )),(),(( *** ′≡ wZwZJ nn mmE adalah
terbatas dan definit positif, maka *M∇ mempunyai semua nilai eigen
dalam setengah sisi sebelah kiri.
(c). Anggap bahwa kondisi dari bagian (a) terpenuhi, bahwa )()( ′−∇= ww QM ,
bahwa )(wQ mempunyai titik-titik stasioner yang terisolasi, dan bahwa
kondisi-kondisi dari bagian (b) terpenuhi untuk setiap ** Ww ∈
0)(: =∇= ww Q .
Bab III. Feedforward Neural Networks
57
Maka untuk ∞→n salah satu nw~ cenderung ke suatu minimum lokal dari
)(wQ dengan probabilitas 1 atau ∞→nw~ dengan probabilitas 1.
Untuk mengaplikasikan Proposisi 3.2.1 pada metode backpropagation di
FFNN dengan satu lapis tersembunyi, diperlukan beberapa kondisi formal yang
sesuai.
Asumsi 3.2.1. Suatu barisan pelatihan atau training ),( ′′′= nnn XYZ adalah
suatu barisan vektor random IID sedemikian hingga ∞<∆<|| nZ . nY
mempunyai nilai-nilai yang berada dalam pℜ , nX mempunyai nilai-nilai dalam
,rℜ ∈pr, ℕ, prv +≡ .
Asumsi 3.2.2. Diberikan input rx ℜ∈ , output network diberikan dengan
=ko ∑ = ′+ qj kjjjkkF 10 ))(( βγψβ x ),( wxkf≡ , pk ,,2,1 K= , dengan ℜ→ℜ:kF
dan ]1,0[: ≡Ι→ℜjψ . Suatu fungsi ),,( 1 ′≡ pFFF K , ),,( 1 ′≡ qψψψ K mem-
punyai elemen-elemen yang dapat diturunkan secara kontinu sampai orde 2
pada ℜ . Kita tulis lℜ∈′′≡ ),( γβw , prpql )( +≡ dengan ),,( 1 ′′′≡ qγγγ K ,
),,,( 110 ′≡ −jrjjj γγγ Kγ , ),,,( 21 ′′′′≡ pββββ K , ),,,( 10 ′≡ kqkkk βββ Kβ .
Perlu dicatat bahwa fungsi kF dan jψ dapat semuanya berbeda dan
tambahan suatu bias pada lapis tersembunyi dengan mencantumkan 0kβ . Bias
pada lapis input dilakukan dengan menggunakan 10 =nX . Fungsi kF tidak harus
suatu pemetaan ke suatu unit interval; boleh juga memilih kF sebagai suatu
fungsi identitas.
Asumsi 3.2.3. +ℜ∈nη adalah suatu barisan menurun sedemikian hingga
(a). ∑∞
=
∞=1n
nη ,
(b). ∞<− −−
−
→∞)sup(lim 1
11
nnnηη , dan
(c). ∑∞
=
∞<1n
dnη untuk suatu 1>d .
Bab III. Feedforward Neural Networks
58
Berikut adalah notasi-notasi yang digunakan. Misalkan ),,( 1 ′≡ pff Kf ,
dan misalkan f∇ adalah suatu matriks Jacobian lp × dari f terhadap w .
Misalkan ))(()( ww nqEQ = , dengan 2/))(())(()( www nnnnn fYfYq −′−=
[sedemikian hingga ))(()()( www nnnn fYfq −′−∇=′∇ ], dan tetapkan
)( ** wnn qq ∇=∇ . Tulis )~(~1−≡ nnn ff w dan )~(~
1−∇=∇ nnn ff w .
Teorema 3.2.1. (White, 1989b) Diberikan Asumsi 3.2.1–3.2.3, definisikan suatu
estimator backpropagation
)~(~~~1 nnnnnn fYf −′∇+= − ηww , K,2,1=n . (3.2.5)
dengan 0~w adalah sembarang. Maka salah satu dari
*~ Ww →n 0))((: =∇= ww nqE dengan probabilitas 1 atau ∞→nw~ dengan
probabilitas 1. Jika, sebagai tambahan, )(wQ mempunyai titik-titik stasioner
yang terisolasi sedemikian hingga )'( ***nn qqE ∇∇=J adalah definit positif untuk
setiap ∗∗ ∈ Ww , maka salah satu nw~ konvergen ke suatu minimum lokal dari
)(wQ dengan probabilitas 1 atau ∞→nw~ dengan probabilitas 1.
Dengan demikian estimator backpropagation adalah divergen atau
konvergen ke suatu titik stasioner dari )(wQ . Jika titik-titik stationer ini memenuhi
suatu kondisi yang dapat diidentifikasi secara lokal, maka backpropagation akan
divergen atau konvergen ke suatu minimum lokal dari )(wQ . Kondisi yang dapat
diidentifikasi ini mengesampingkan kondisi tepat dalam )(wQ , disebabkan oleh
input atau unit di lapis tersembunyi yang redundant. Kondisi dapat diidentifikasi
secara lokal tidak mengesampingkan suatu kemungkinan akan diperolehnya
minimum global yang berganda.
Hasil ini memformalkan keterbatasan dari backpropagation, yaitu dapat
berhenti pada minimum lokal atau pada titik-titik belok, atau divergen. Sehingga
adalah masuk akal untuk menetapkan nilai-nilai yang berbeda untuk 0~w ,
misalkan saja i0w ),,2,1( Ni K= , mengaplikasikan suatu algoritma untuk
mendapatkan inw~ ),,2,1( Ni K= , dan kemudian memilih suatu estimator yang
memberikan nilai terkecil untuk ∑ =−≡ n
tint
in qnQ 1
1 )~(~ w . Ini biasanya menghasilkan
suatu estimasi yang konsisten untuk suatu minimum lokal, walaupun tidak ada
Bab III. Feedforward Neural Networks
59
jaminan bahwa hasil itu akan mencapai nilai yang dekat dengan suatu minimum
global.
Untuk kelengkapan terhadap jaminan konvergen dari estimator pada
pembelajaran network seperti pada Persamaan (3.2.4) diberikan teorema
sebagai berikut.
Teorema 3.2.2. (White, 1989b) Misalkan ),F,( PΩ adalah suatu ruang
probabilitas lengkap yang didefinisikan pada suatu barisan variabel random yang
IID ,:( vtt ΖZ ℜ→Ω= ),2,1 K=t , ∈v ℕ ,2,1 K≡ . Misalkan ℜ→×ℜ Wl v:
adalah suatu fungsi sedemikian hingga untuk setiap w dalam W , suatu sub-
himpunan kompak dari sℜ , ∈s ℕ, ),( wl ⋅ adalah ukuran- vΒ (dengan vΒ adalah
suatu σ -field Borel dengan himpunan-himpunan terbuka dari vℜ ), dan untuk
setiap z dalam vℜ , ),( ⋅zl adalah kontinu pada W . Anggap selanjutnya bahwa
ada +ℜ→ℜvd : sedemikian hingga untuk semua w dalam W , )(|),(| zdzl ≤w
dan ∞<))(( tZdE (yaitu, l terdominasi pada W oleh suatu fungsi yang dapat
diintegralkan).
Maka untuk setiap K,2,1=n ada suatu penyelesaian nw untuk per-
masalahan ∑ =−
∈ ≡ nt tnWw lnQ 1
1 ),()(ˆmin wZw dan ,..ˆ * Psan −→ Ww dengan
)()(: *** wwWwW QQ ≤∈≡ untuk semua Ww ∈ , )),(()( wZw tlEQ = .
3.3 Sifat Normalitas Asimtotis Estimator Backpropagation
Konsep formal yang tepat untuk mempelajari distribusi limit (asimtotis)
nw adalah konsep-konsep tentang konvergensi dalam distribusi seperti yang
telah ditulis pada Bab II. Distribusi asimtotis nw tergantung pada sifat dasar *W .
Secara umum *W mungkin terdiri dari titik-titik yang terisolasi dan/atau bagian
datar yang terisolasi. Jika konvergensi ke suatu bagian datar terjadi, maka bobot-
bobot taksisran nw mempunyai suatu distribusi asimtotis yang dapat dianalisis
dengan menggunakan teori dari Phillips (1989) tentang model yang teridentifikasi
secara parsial. Distribusi-distribusi ini termasuk dalam keluarga Gaussian
gabungan asimtotis atau “limiting mixed Gaussian” (LMG) seperti yang
Bab III. Feedforward Neural Networks
60
dikenalkan oleh Phillips. Ketika *w adalah unik secara lokal, model dikatakan
teridentifikasi secara lokal dan bobot-bobot taksiran nw yang konvergen ke *w
mempunyai distribusi normal multivariat asimtotis.
Berikut ini adalah teorema-teorema yang berkaitan dengan kondisi-
kondisi yang memastikan bahwa nw mempunyai distribusi normal multivariat
asimtotis.
Teorema 3.3.1. (White, 1989b) Misalkan ),F,( PΩ , tZ , W dan l adalah
seperti dalam Teorema 3.2.2, dan anggap bahwa Psan −→ .. ˆ *ww dengan
suatu elemen terisolasi pada *W bagian dalam (interior) untuk W .
Anggap sebagai tambahan bahwa untuk setiap z dalam vℜ , ),( ⋅zl
adalah dapat diturunkan secara kontinu sampai orde 2 pada ∫ W ; bahwa
∞<∇′∇ )),(),(( ** ww tt ZlZlE ; bahwa setiap elemen dari l2∇ adalah
terdominasi pada W suatu fungsi yang dapat diintegralkan; dan bahwa
)),(( *2* wA tZlE ∇≡ dan )),(),(( *** ′∇∇≡ wwB tt ZlZlE matriks-matriks non-
singular berukuran )( ss × , dengan ∇ dan 2∇ adalah notasi dari gradien )1( ×s
dan operator-operator Hessian )( ss × terhadap w .
Maka ),()ˆ( ** C0ww Ν→− dnn , dengan 11* ∗−∗∗−= ABAC . Jika
sebagai tambahan, setiap elemen ll ′∇∇ adalah terdominasi pada W oleh suatu
fungsi yang dapat diintegralkan, maka Psan −→ ∗ .. ˆ CC , dengan 11 ˆˆˆˆ −−= nnnn ABAC , dan
n
Zlnt nt
n∑ = ∇
= 12 )ˆ,(ˆ w
A , n
ZlZlnt ntnt
n∑ = ′∇∇
= 1 )ˆ,()ˆ,(ˆ wwB .
Proposisi 3.3.1. (White, 1989a) Misalkan kondisi-kondisi Proposisi 3.2.1(a,b)
terpenuhi, dan anggap juga bahwa ∞<∆<|),(| wnZm a.s. untuk semua w
dalam sℜ . Misalkan ∗ζ adalah nilai maksimum bagian real dari nilai-nilai eigen ∗∇M dan anggap ∗ζ 2
1−< . Definisikan )],(var[)( ww nZmJ ≡ dan anggap J
adalah kontinyu pada suatu persekitaran dari *w . Tetapkan )( ∗∗ = wJJ dan 1−= nnη .
Bab III. Feedforward Neural Networks
61
Maka suatu barisan elemen-elemen random )(aTn dari ]1,0[lCR dengan
normsup , didefinisikan dengan
2/1][1][
2/1][ )])([(
)(n
SSnananS
aT nananan
−−+= + , ]1,0[∈a ,
dengan )~( ∗−= ww nn nS , konvergen dalam distribusi ke suatu proses Markov
Gaussian G dengan
dtaaG a ))((lnexp[)])(exp[(ln)( ],0( IMMI +∇−×∇+= ∗∗ ∫ W )(t , ]1,0(∈a ,
dengan W adalah suatu gerak Brownian dalam sℜ , dengan W 0)0( = , dan
(E W 0))1( = , serta (E W )1( W ))1( ′ ∗= J . Secara khusus,
),()~(2/1 ∗∗ Ν→− F0ww dnn ,
dengan ∫ +∇−+∇−= ∗∗∗∗]1,0(
']))[(lnexp(]))[(lnexp( dttt IMJIMF adalah suatu
penyelesaian yang unik pada persamaan
)2/1()2/1('+∇++∇ ∗∗∗∗ MFFM ∗−= J .
Ketika ∗∇M adalah simetrik, 1−∗ = PHPF , dengan P adalah matriks ortogonal
sedemikian hingga ∗− −∇= MPΞΞ 1 dengan Ξ suatu matriks diagonal yang
terdiri atas suatu nilai-nilai eigen (real), ),,( 1 sλλ K , dari ∗∇− M dalam urutan
menurun, dan H adalah suatu matriks ss × dengan elemen-elemen
)1( −+=
∗
ji
ijij
KH
λλ, sji ,,2,1, K= ,
dengan PJPK ∗−∗∗ == 1][ ijK .
Untuk menerapkan Proposisi 3.3.1 pada backpropagation, diperlukan
penguatan Asumsi 3.2.2 dan 3.2.3 seperti yang dijelaskan berikut ini.
Asumsi 3.3.1. Asumsi 3.2.2 terpenuhi, dan elemen-elemen dari F dan turunan-
turunan dari F dan ψ adalah terbatas.
Bab III. Feedforward Neural Networks
62
Secara tegas, kondisi ini mengenyampingkan suatu kasus dimana F
adalah suatu pemetaan identitas. Bagaimanapun, gunakan λλ =)(kF untuk
∞<∆≤|| λ dan kF adalah fungsi yang halus (smooth) dan terbatas untuk
∆>|| λ ( ∆ besar), membolehkan pendekatan yang identik untuk hasil-hasil yang
diperoleh ketika kF adalah suatu pemetaan identitas, diberikan batasan pada tY .
Asumsi 3.3.2. Untuk K,2,1=n , 1−= nn δη , 0>δ .
Teorema 3.3.2. (White, 1989b) Diberikan Asumsi 3.2.1, 3.3.1 dan 3.3.2,
definisikan nw~ seperti pada Persamaan (3.2.5). Anggap bahwa ~ .. ∗→ ww san ,
∗w suatu titik stasioner yang terisolasi pada )(wQ dengan ∗J definit positif.
Lebih lanjut, anggap bahwa 1)2( −∗> λδ , dengan 0>∗λ adalah nilai eigen
terkecil dari ∗∇ Q2 )(2 ∗∇≡ wQ .
Maka dengan )(aTn seperti dalam Proposisi 3.3.1, )(aTn konvergen
dalam distribusi ke suatu proses Markov Gaussian G dengan didefinisikan
dengan
]))[exp((ln)( 2 ∗∇−= QaaG δδ I ∫ −∇ ∗],0(
2 )])(exp[(lna Qt Iδ d W )(t , ]1,0(∈a ,
dengan W adalah suatu gerak Brownian dalam sℜ , dengan W 0)0( = , dan
(E W 0))1( = , serta (E W )1( W ))1( ′ ∗= J . Secara khusus,
),()~(2/1 ∗∗ Ν→− F0ww dnn ,
dengan 1−∗ = PHPF , dan P adalah matriks ortogonal sedemikian hingga 1−PΞΞ ∗∇= Q2 dengan Ξ suatu matriks diagonal yang terdiri atas suatu nilai-
nilai eigen ),,( 1 sλλ K dari ∗∇ Q2 dalam urutan menurun (semakin kecil), dan H
adalah suatu matriks ss × dengan elemen-elemen
)1(2 −+=
∗
ji
ijij
KH
δλδλδ, sji ,,2,1, K= ,
dengan PJPK ∗−∗∗ == 1][ ijK .
Berdasarkan hasil-hasil teori di atas, dengan demikian dapat dijelaskan
bahwa backpropagation menghasilkan estimator dengan perilaku asimtotis yang
Bab III. Feedforward Neural Networks
63
dapat digambarkan secara tepat oleh suatu proses Gaussian tertentu. Hal ini
memberikan kemungkinan untuk melakukan uji hipotesis tentang kekuatan
hubungan dalam networks, yang mencakup hipotesis tentang relevansi atau
signifikansi “variabel-variabel input” dan “unit-unit di lapis tersembunyi”.
White (1989a) telah melakukan kajian teoritik tentang perbaikan hasil
pembelajaran pada networks. Dalam hal ini, teknik rekursif murni dari back-
propagation dihilangkan. White membuktikan bahwa metode pembelajaran untuk
menyelesaikan Persamaan (3.2.4) secara lokal untuk performansi kuadrat
kesalahan adalah relatif efisien secara asimtotis dibanding metode back-
propagation. Berikut ini adalah beberapa teorema dihasilkan dalam kajian
tersebut.
Teorema 3.3.3. (White, 1989a). Misalkan ssM ℜ→ℜ: mempunyai nol unik ∗w
bagian dalam untuk suatu himpunan kompak yang konvek sℜ⊂W dan anggap
M dapat diturunkan secara kontinu pada W dengan ∗∇M terhingga dan
nonsingular. Misalkan ,(Ω ),F P adalah suatu ruang probabilitas, dan anggap
ada suatu barisan : snM ℜ→×Ω W sedemikian hingga untuk setiap w
dalam W , ),( w⋅nM adalah measureable- F dan untuk setiap w dalam
),(, ⋅Ω wnM dapat diturunkan secara kontinu pada W , dengan Jacobian
),( ⋅∇ wM n . Anggap bahwa untuk suatu matriks definit positif ∗B ,
),(),(2/1 ∗∗ Ν→⋅ B0w dnMn ,
dan bahwa 0)(),( →−⋅ ww MM n , 0)(),( →∇−⋅∇ ww MM n a.s. )( P− secara
seragam pada W .
Misalkan :~ sn ℜ→Ωw adalah suatu barisan yang dapat diukur sede-
mikian hingga ~ .. ∗→ ww san dan )~(2/1 ∗− ww nn adalah )1(pO . Maka, dengan
)~,(~nnn MM w⋅≡ dan )~,(~
nnn MM w⋅∇≡∇ , nnnn MM ~~~ˆ 1−∇−≡ ww adalah
sedemikian hingga ∗→ ww ..ˆ san dan
),()ˆ(2/1 ∗∗ Ν→− C0ww dnn ,
dengan '11 ∗−∗∗−∗ ≡ ABAC , ∗∗ ∇≡ MA .
Bab III. Feedforward Neural Networks
64
Jika ada ~ nB sedemikian hingga ∗→ BB ..~ san , maka dengan
nn M~~∇≡A diperoleh bahwa
'11 ~~~~ −−≡ nnnn ABAC ∗→ C..sa .
Kegunaan dari Teorema 3.3.4 adalah bahwa nw dapat menghasilkan
suatu perbaikan atas nw~ , yaitu dalam hal mempunyai matrik kovarians asimtotis
yang lebih kecil.
Teorema 3.3.4. (White, 1989a). Misalkan kondisi-kondisi dari Teorema 3.3.3
terpenuhi dengan ∗w suatu nol yang terisolasi pada 0)),(()( =≡ ww nZMEM ,
dan misalkan W adalah suatu persekitaran kompak yang konvek dari ∗w .
Tetapkan ∑ =−≡⋅ n
t tn ZmnM 11 ),(),( ww sedemikian hingga ≡⋅∇ ),( wnM
∑ =− ∇n
t tZmn 11 ),( w , dan anggap bahwa m∇ terdominasi pada W oleh suatu
fungsi yang dapat diintegralkan. Misalkan nw~ adalah suatu estimator- m yang
rekursif dan definisikan nnnn MM ~~~ˆ 1−∇−≡ ww , K,2,1=n . Maka kesimpulan-
kesimpulan dari Teorema 3.3.3 terpenuhi dan ∗∗ − CF adalah semidefinit positif.
3.4 Uji Hipotesa untuk Parameter Model Neural Networks
Pada bagian sebelumnya telah ditunjukkan bahwa penggunaan satu
tahap Nonlinear Least Squares (NLS) Newton-Raphson dari estimator back-
propagation menghasilkan suatu estimator yang ekuivalen secara asimtotis
dengan NLS. Suatu kenyataan bahwa ∗∗ − CF semidefinit positif adalah suatu
alasan untuk menyatakan bahwa tahapan ini adalah pembelajaran konsolidasi,
karena nw mempunyai presisi asimtotis yang sama atau lebih besar daripada
nw~ . Dengan demikian uji hipotesa berdasarkan nw adalah lebih bermanfaat dari
pada berdasarkan nw~ .
Karena pencapaian presisi yang lebih baik ini, maka uji hipotesis sebaik-
nya dilakukan dengan menggunakan nw . Suatu uji tentang relevansi
(signifikansi) input yang hipotesisnya dapat dinyatakan dengan 0Sw =∗:0H
melawan 0Sw ≠∗:1H , dapat dilakukan berdasarkan pada versi-versi statistik
Wald, Lagrange multiplier, dan Likelihood ratio.
Bab III. Feedforward Neural Networks
65
Berikut ini adalah Corollary, Proposisi dan Teorema yang diperlukan
untuk menurunkan dan membuktikan Teorema untuk statistik Wald pada
parameter model NN.
Corollary 3.4.1. (White, 1999) Misalkan nX adalah suatu barisan vektor
random 1×k sedemikian hingga ),0(2/1 IXV Ν→− dnn , dengan nV dan 1−
nV
adalah )1(O . Misalkan nY adalah suatu barisan )1(O dari matriks (non
stokastik) kq× dengan rank baris penuh q untuk semua n cukup besar,
seragam dalam n . Maka barisan nX nY adalah sedemikian hingga
),(2/1 I0NYXΓ →− dnnn ,
dengan nnnn XVXΓ ≡ dan nΓ dan 1−nΓ adalah )1(O .
Proposisi 3.4.1. (White, 1999) Misalkan lkg ℜ→ℜ: adalah kontinyu pada
suatu himpunan kompak kℜ⊂C . Anggap bahwa nY adalah suatu barisan
vektor random 1×k dan nZ adalah suatu barisan vektor 1×k sedemikian
hingga 0→− pnn ZY , dan untuk semua n cukup besar, nZ adalah bagian
dalam C , secara seragam dalam n . Maka 0)()( →− pnn gg ZY .
Teorema 3.4.1. (White, 1999) Misalkan ),0(2/1k
dnn N IYV →− , dan anggap
bahwa ada nV yang semidefinit positif dan simetrik sedemikian hingga
0ˆ →− pnn VV , dengan nV adalah )1(O , dan untuk semua n cukup besar,
0)det( >> δnV . Maka 2ˆk
dnnn χ→′′ YVY .
Pada akhirnya, dapat dikonstruksi teorema baru yang berkaitan dengan
statistik Wald yang digunakan untuk pengujian hipotesis pada parameter model
NN dapat dikonstruksi seperti berikut ini.
Teorema 3.4.2. Misalkan kondisi-kondisi pada Teorema 3.3.3 di atas terpenuhi,
yaitu
Bab III. Feedforward Neural Networks
66
(i) ),()ˆ(2/1
I0wwC Ν→− ∗−∗ dnn , dengan
'11 ABAC −∗∗−∗∗ ≡ , dan 1−∗C
adalah )1(O .
(ii) Ada suatu matriks semidifinit positif dan simetris nB sedemikian hingga
∗− BBnˆ 0→p . Maka ∗− CCn
ˆ 0→p , dengan 11 ˆˆˆˆ −−= nnnn ABAC ,
n,Zln
t ntn
∑ = ∇= 1
2 )ˆ(ˆ wA ,
nZlZln
t ntntn
∑ = ′∇∇= 1 )ˆ,()ˆ,(ˆ ww
B ,
Dan, misalkan kq ≤=)(rank S . Maka dibawah sH =∗Sw:0 ,
(i) ),()ˆ(2/1 I0swSΓ Ν→−− dnn n , dengan
=≡ ∗ 'n SSCΓ ''SABSA 11 −∗∗−∗ .
(ii) Suatu statistik Wald, 21 )ˆ(ˆ)ˆ( q
dnnnn nW χ→−′−≡ − swSΓswS ,
dengan 'nn SCSΓ ˆˆ ≡ .
Bukti: Dengan menggunakan Corollary, Proposisi dan Teorema di atas,
diperoleh pembuktian untuk Teorema 3.4.2 sebagai berikut.
(i) Di bawah ,0H )ˆˆ ∗−=− wwS(swS nn , didapatkan
)ˆ()ˆ(2/12/12/12/1 ∗∗∗−− −=−
−wwCSCΓswSΓ nnnn nn .
Mengikuti Corollary 3.4.1, dengan SA =n dan )ˆ( ∗−= wwb nn n ,
sehingga diperoleh ),()ˆ(2/1 I0swSΓ Ν→−− dnn n .
(ii) Dari Teorema 3.3.3 diketahui bahwa 0ˆ .→− ∗ san CC , akibatnya
0ˆ →− ∗ pn CC . Mengikuti Proposisi 3.4.1, dengan )ˆ(ˆ
nn g CΓ = dan
)( ∗= CΓ gn , sehingga didapatkan 0ˆ →− pnn ΓΓ . Diberikan hasil
dalam bagian (i), yaitu ),()ˆ(2/1 I0swSΓ Ν→−− dnn n , maka dengan
menggunakan Teorema 3.4.1 diperoleh
21 )ˆ(ˆ)ˆ( qd
nnnn nW χ→−′−≡ − swSΓswS .
Dengan demikian, suatu uji tentang relevansi (signifikansi) input yang
hipotesisnya dapat dinyatakan dengan 0Sw =∗:0H melawan 0Sw ≠∗:1H ,
Bab III. Feedforward Neural Networks
67
dapat dilakukan dengan mengaplikasikan Teorema 3.4.2 ini. Sebagai contoh,
statistik uji Wald dapat dihitung untuk pengujian hipotesis ini yaitu
nnn nW wSSSCSw ˆ)(ˆˆ 1−∗ ′′′= ,
dengan ∗C seperti yang dijelaskan sebelumnya. Realisasi dari variabel random
ini tidak dapat dihitung, karena meskipun pernyataan secara analitis untuk ∗C
ada, suatu keadaan tentang hukum probabilitas P dibutuhkan untuk evaluasi
secara numerik. Untungnya, suatu taksiran ∗C dapat dikonstruksi, yaitu 1212 ˆˆˆˆ −− ∇∇≡ nnnn QQ JC dengan )ˆ,(ˆ 22
nnn QQ w⋅∇≡∇ , dan ∑ =− ∇′′∇≡ n
t ttttn ffn 11 ˆˆˆˆˆ εεJ
dengan )ˆ(ˆntt ff w∇≡∇ , )ˆ(ˆ nttt fY w−≡ε . Uji statistik Wald nW adalah lebih
mudah dihitung daripada nW~ karena nC lebih mudah dihitung. Ketika kondisi-
kondisi aturan standar terpenuhi, maka
21 ˆ)ˆ(ˆ qd
nnnn χ→′′ − wSSCSSw ,
di hipotesis 0H yang menyatakan bahwa input tidak relevan.
- 68 -
BAB IV FFNN UNTUK PERAMALAN RUNTUN WAKTU
Peramalan runtun waktu merupakan salah satu bidang utama dalam
aplikasi FFNN. Dalam kasus ini, FFNN dapat dipandang sebagai suatu model
runtun waktu yang nonlinear. Jika diberikan tΙ adalah suatu himpunan informasi
yang didefinisikan
tΙ 0,;0, ≥>= −− iXjY itjt , nt ,,2,1 K= , (4.1)
yang menyatakan semua variabel lag tY dan suatu vektor variabel eksogen tX ,
maka proses pemodelan runtun waktu secara umum bertujuan mendapatkan
suatu pendekatan yang baik untuk )( tIf sedemikan hingga
)(]|[ ttt IfΙYE = . (4.2)
Terasvirta dkk. (1994) menjelaskan bahwa ada tiga tahapan strategi
pemodelan yang banyak dilakukan pada kelompok model runtun waktu
nonlinear. Secara ringkas tahapan tersebut adalah :
(i). Uji linearitas tY dengan menggunakan informasi tΙ
Banyak kemungkinan bentuk dari nonlinearitas, dan sampai saat ini tidak
ada satu tes yang mampu melakukan semua kemungkinan nonlinear
tersebut, sehingga beberapa tes mungkin diperlukan.
(ii). Jika linearitas ditolak, gunakan beberapa alternatif model parametrik
nonlinear dan/atau model-model nonparametrik.
Dalam hal ini, hasil uji linearitas juga mungkin memberikan petunjuk
tentang model nonlinear yang sebaiknya digunakan.
(iii). Model-model tersebut selanjutnya diestimasi dalam sampel (in-sample)
dan dibandingkan pada data validasi (out-of-sample).
Sifat-sifat dari model taksiran harus diselidiki dan divalidasi. Jika suatu
model tunggal terbaik yang dibutuhkan, maka model yang memberikan
Bab IV. FFNN untuk Peramalan Runtun waktu
69
hasil out-of-sample terbaik yang dipilih, dan kemudian lakukan estimasi
kembali pada semua data yang ada.
Pada bab ini akan diberikan hasil-hasil kajian teori dan terapan tentang uji
nonlinearitas pada runtun waktu, dan kajian teori tentang prosedur pembentukan
FFNN untuk peramalan runtun waktu.
4.1 Uji Nonlinearitas pada Data Runtun waktu
Seperti yang dijelaskan pada tahapan pemodelan runtun waktu nonlinear
oleh Terasvirta dkk. (1994), bahwa tahap pertama sebelum menerapkan suatu
model runtun waktu nonlinear (seperti FFNN) adalah melakukan uji linearitas
pada runtun waktu. Ada beberapa uji nonlinearitas yang telah dikembangkan,
antara lain uji RESET, bispectral, BDS, dan uji tipe tipe Langrange Multiplier
(LM). Kajian perbandingan kebaikan uji-uji ini dapat dilihat pada Lee dkk. (1993).
Pada bagian ini akan dipaparkan hasil-hasil kajian teori dan terapan
berkaitan dengan uji linearitas yang dikembangkan dari model neural network,
yang dikenal dengan uji linearitas tipe LM dengan ekspansi Taylor. Kajian teori
difokuskan pada penurunan uji statistik. Sedangkan kajian terapan lebih
menitikberatkan pada berfungsinya uji statistik, dan mengevaluasi adanya
kemungkinan kelemahan dari uji statistik tersebut. Secara lengkap hasil dari
kajian ini telah dipublikasikan dan dapat dilihat di Suhartono dan Subanar (2004)
serta Subanar dan Suhartono (2005, 2006a).
4.1.1 Penurunan Uji Nonlinearitas Tipe Lagrange Multiplier (LM) dengan
Ekspansi Taylor
Perhatikan model nonlinear
tttt uIIY +′+′= βγ )(ϕ (4.1.1)
dengan ~tu IIDN ),0( 2σ , )~,1( ′′= tt II , ),,(~1 ′= −− pttt YYI K , ),,,( 10 ′= pβββ Kβ ,
)~,( 0 ′′= γγ γ dan ),,(~1 ′= pγγ Kγ . Dalam model (4.1.1) ini, tI dibatasi hanya
variabel lag tY dan tidak melibatkan variabel eksogen tX . Misal diberikan
Bab IV. FFNN untuk Peramalan Runtun waktu
70
)()( 0 tt II γγ ′=′ ψθϕ , (4.1.2)
dengan (lihat Terasvirta dkk. (1993))
211)exp(1)( −′−+=′ −
tt II γγψ . (4.1.3)
Dengan demikian persamaan (4.1.1) dapat diinterpretasikan sebagai suatu
model autoregresif nonlinear dengan konstanta )(00 tIγψθβ ′+ , yang variatif
terhadap waktu dan berubah secara halus dari )2( 00 θβ − ke )2( 00 θβ +
dengan tIγ′ .
Model (4.1.1) adalah kasus khusus dari model neural networks dengan
satu lapis tersembunyi, yaitu (lihat Terasvirta dkk. (1993))
∑=
+−′+′=q
jttjjtt uIIY
121
0 )( γψθβ , (4.1.4)
dengan q adalah banyaknya unit neuron pada lapis tersembunyi. Secara visual,
arsitektur model neural networks ini dapat dilustrasikan seperti pada Gambar 4.1.
Perhatikan persamaan (4.1.1) dengan (4.1.2) dan uji hipotesis bahwa tY
adalah linear, yaitu ttt uIY +′= β dengan asumsi bahwa proses stasioner. Jadi
hipotesis nol dapat didefinisikan sebagai 0: 00 =θH . Untuk model (4.1.4)
hipotesis nolnya adalah
0: 002010 ==== qH θθθ L ,
yang disebut hipotesis linearitas dari uji neural networks melawan nonlinearitas
yang terabaikan (lihat White (1989c) dan Lee dkk. (1993)). Selanjutnya, jika
diberikan bahwa 0)0( =ψ maka hal ini berimplikasi pada kemungkinan lain untuk
hipotesis nol untuk linearitas, yaitu
0γ =:*0H (4.1.5)
melawan hipotesis alternatif 0γ ≠ .
Bab IV. FFNN untuk Peramalan Runtun waktu
71
),,,( 10 ′=′ pββββ K
),,,( 10 ′= pj γγγγ K ),,( 0010 ′= qj θθθ K
M Lapis Output (Variabel Dependen) M Lapis Input (Lag Variabel Dependen) Lapis Tersembunyi (q unit neuron)
Gambar 4.1. Arsitektur model neural networks satu lapis tersembunyi pada persamaan (4.1.4).
Hipotesis (4.1.5) memberikan suatu titik awal yang menarik untuk
mempelajari permasalahan uji linearitas dalam kerangka pengujian LM.
Perhatikan kembali bahwa model (4.1.1) hanya diidentifikasi di bawah alternatif
0γ ≠ . Seperti Saikkonen dan Luukkonen (1988) dan Luukkonen dkk. (1988),
tulisan ini mencoba menyelesaikan masalah ini dengan mengganti ϕ dalam
(4.1.1) dengan pendekatan ekspansi Taylor pada 0=γ . Pendekatan ekspansi
Taylor yang paling mudah adalah suatu pendekatan order pertama. Dari (4.1.2)
dan (4.1.3) dapat ditunjukkan bahwa turunan pertama dari (4.1.2) adalah
2)exp(1)exp(.
)(t
ttt I
IwI
γγ
γγ ′−+
′−=′
∂∂
ψ ,
sehingga diperoleh
tt
t II
I 41
20 )0exp(1)0exp(.
)( =+
=′∂∂
=γψ γγ
. (4.1.6)
ty
1
1−ty
pty −
Bab IV. FFNN untuk Peramalan Runtun waktu
72
Dengan demikian pendekatan ekspansi Taylor orde pertama, yang
dinotasikan dengan 1t , yaitu =′ )( 10 tIt γθ tt II γγ ′=′′ 041
0 )0( θψθ bergabung
dengan bagian linear dari model (4.1.1), sehingga semua informasi tentang
nonlinearitas tereliminir. Hal ini merupakan cara lain untuk melihat bahwa (4.1.1)
dengan (4.1.2) dan model linear autoregresi order p adalah alternatif yang
secara lokal sama dengan dasar (4.1.5).
Untuk mengatasi permasalahan tereliminasinya informasi tentang non-
linearitas diatas, dilakukan hal seperti dalam Luukkonen dkk. (1988) dan gantikan
ψ dalam (4.1.1) melalui pendekatan ekspansi Taylor dengan orde yang lebih
tinggi, orde ketiga, yang dinotasikan dengan 3t untuk menurunkan suatu uji yang
tepat. Diberikan
∑ ∑∑= == ∂∂
∂+
∂∂
+=′p
i
p
jji
ji
p
ii
itj It
0 0
2
13
)0(21)0()0()( γγ
γγψ
γγ
ψψγ
∑ ∑ ∑= = = ∂∂∂
∂+
p
i
p
j
p
kkji
kji0 0 0
3 )0(61
γγγγγγ
ψ (4.1.7)
dan gantikan ψ dalam (4.1.1) oleh (4.1.6).
Berikut ini adalah langkah-langkah untuk mendapatkan pendekatan
ekspansi Taylor orde ketiga. Pertama, persamaan (4.1.2) dapat ditulis kembali
dalam bentuk
211)exp(1)( −′−+=′ −
tt II γγψ
211
110 ])[exp(1 −+++−+= −−− ptpt YY γγγ L .
Turunan pertama dari persamaan ini adalah
itptpt
ptpt
iY
yy
yy−
−−
−−
+++−+
+++−=
∂∂ .
])[exp(1
])[exp(2
110
110
γγγ
γγγ
γψ
L
L
itt
t YI
I−′−+
′−= .
)exp(1)exp(
2γγ
.
Bab IV. FFNN untuk Peramalan Runtun waktu
73
Selanjutnya, turunan kedua dari (4.1.2) adalah
+++−+
+++−
∂∂
=∂∂
∂−
−−
−−it
ptpt
ptpt
jjiY
YY
YY.
])[exp(1
])[exp(2
110
1102
γγγ
γγγ
γγγψ
L
L
jtitt
ttt YYI
III−−′−+
′−+′−+′−−= .
)exp(1)2exp(2)exp(1)]exp([
3γγγγ
.
jtitt
tt YYI
II−−′−+
′−−′−−= .
)exp(1)2exp()exp(
3γγγ
untuk 1, ≥ji .
Dengan demikian, turunan ketiga dari (4.1.2) ini adalah
′−+
′−−′−−
∂∂
=∂∂∂
∂−− jtit
t
tt
kkjiYY
III
.)exp(1
)2exp()exp(3
3
γγγ
γγγγψ
ktjtitt
ttt YYYI
III−−−′−+
′−+′−−′−= .
)exp(1)3exp()2exp(4)exp(
4γγγγ
,
untuk 1,, ≥kji .
Dari hasil-hasil penjabaran di atas, pendekatan ekspansi Taylor pada
0γ = akan menghasilkan
=∂∂
∂
ji γγψ )0(2
0)0exp(1
)0exp()0exp(3 =
−+−
− −− jtit YY ,
dan
ktjtitkji
YYY −−−+
+−=
∂∂∂∂
4
3
)0exp(1)0exp()0exp(4)0exp()0(
γγγψ
.1,,,81 ≥−= −−− kjiYYY ktjtit untuk
Jika 1, ≥ji dan 0=k diperoleh
jtitkji
YY −−−=∂∂∂
∂81
3 )0(γγγ
ψ.
Bab IV. FFNN untuk Peramalan Runtun waktu
74
Dengan demikian, model (4.1.1) menjadi
t
p
i
p
ij
p
jkktjtitijk
p
i
p
ijjtitijtt uYYYYYIY +++′= ∑ ∑ ∑∑ ∑
= = =−−−
= =−−
11
~δδβ , (4.1.8)
dengan β~ adalah gabungan antara β dengan koefisien-koefisien bagian linear
hasil pendekatan Taylor orde pertama, jiijij d γγθδ 0= , dan kjiijkijk d γγγθδ 0=
dengan 481−== ijkij dd .
Jika 00 =γ adalah suatu informasi dari model, sehingga tt II ~ ~γγ ′=′
(bagian eksponensial tidak mengandung suatu konstanta), maka 0=ijδ untuk
semua ji, . Dalam kasus ini, persamaan (4.1.8) tidak mempunyai suku orde
kedua. Hipotesis nol yang bersesuaian dengan (4.1.5) adalah
:*0H ,0=ijδ 0=ijkδ untuk ;,,1 pi K= ;,, pij K= pjk ,,K= .
Dengan demikian, uji linearitas tipe LM melawan (4.1.1) terdiri dari deret orde
ketiga dari ekspansi Volterra (lihat Priestley, 1980) suatu fungsi nonlinear. Dalam
hal ini, uji hipotesis nolnya menyatakan bahwa koefisien-koefisien dari suku-suku
kuadratik dan kubik adalah sama dengan nol. Jika ada argumen yang
menyatakan bahwa fungsi tidak mengandung suatu konstanta, maka dalam hal
ini tidak ada suku kuadratik dalam ekspansi Taylor pada 0γ = .
Selanjutnya, perhatikan bahwa (4.1.4) merupakan bentuk dasar dari uji
neural networks. Jika 1>q , (4.1.4) tidak secara global dapat diidentifikasi di
bawah hipotesis nol
0: 1*0 === qH γγ L (4.1.9)
ataupun di bawah hipotesis alternatif bahwa hipotesis nol adalah tidak benar.
Suatu konsekuensi dari ini adalah kenyataan bahwa penurunan suatu uji yang
dapat diterapkan untuk hipotesis nol pada (4.1.9) mengikuti argumen di atas
menghasilkan (4.1.8) dengan
∑ == qh hhjhiijij d1 00 γγγθδ dan ∑ == q
h hkhjhiijkijk d1 0 γγγθδ .
Bab IV. FFNN untuk Peramalan Runtun waktu
75
Dengan demikian, uji linearitas berdasarkan dual (suku kuadratik dan kubik) dari
ekspansi Volterra tetap tidak berubah ketika proses pembangkitan data adalah
seperti (4.1.4) pengganti dari (4.1.1).
Uji ini tidak selalu tergantung pada asumsi bahwa fungsi “squashing”
dalam model neural networks adalah logistik. Seperti yang telah dikerjakan
Luukkonen dkk. (1988), uji yang sama akan dapat diperoleh dengan asumsi
bahwa
(i). )( tIγ′ψ dalam (4.1.2) adalah suatu fungsi terbatas, ganjil, naik secara
monoton dengan suatu turunan ketiga berhingga pada suatu persekitaran
dari daerah asal, dan
(ii). 0)0( =ψ , dan turunan parsial pertama dan ketiga dari ψ pada nol adalah
tidak sama dengan nol.
Hal ini berimplikasi bahwa uji tersebut mempunyai kuasa (power) dibanding
beberapa model nonlinear, tidak hanya satu bentuk nonlinearitas yang dicirikan
dengan fungsi logistik. Fungsi logistik yang digunakan dalam menurunkan uji
disini disebabkan karena fungsi tersebut yang dipakai pada (4.1.4).
Implementasi praktis uji linearitas yang dikenalkan oleh Terasvirta dkk.
(1993), dapat dilakukan melalui dua statistik uji, yaitu uji 2χ atau uji F . Prosedur
untuk mendapatkan uji 2χ adalah sebagai berikut :
(i). Regresikan tY pada ptt YY −− ,,,1 1 K dan hitung nilai-nilai residual
ttt YYu ˆˆ −= .
(ii). Regresikan tu pada ptt YY −− ,,,1 1 K dan m prediktor tambahan, dan
kemudian hitung koefisien determinasi dari regresi 2R . Pada uji yang
dikenalkan oleh Terasvirta dkk. (1993), m prediktor tambahan ini adalah
suku kuadratik dan kubik yang merupakan hasil pendekatan ekspansi
Taylor seperti yang telah dijelaskan pada bagian 3 persamaan (4.1.8)
sebelumnya.
(iii). Hitung 22 nR=χ , dengan n adalah banyaknya pengamatan yang
digunakan.
Bab IV. FFNN untuk Peramalan Runtun waktu
76
Dibawah hipotesis linearitas, 2χ mendekati distribusi )(2 mχ , dengan m adalah
banyaknya prediktor tambahan. Kajian teoritik berkaitan dengan pendekatan
asimtotis 22 χ→dnR dapat dilihat White (1989c).
Sedangkan prosedur uji F untuk uji linearitas tipe LM ini adalah sebagai
berikut :
(i). Regresikan tY pada ptt YY −− ,,,1 1 K dan hitung nilai-nilai residual tu dan
hitung jumlah kuadrat residual ∑= 20 ˆtuSSE .
(ii). Regresikan tu pada ptt YY −− ,,,1 1 K dan m prediktor tambahan, dan
kemudian hitung residual ttt uuv ˆˆˆ −= dan jumlah kuadrat residual
∑= 21 ˆtvSSE . ( m dan prediktor-prediktor yang terlibat bervariasi untuk
suatu uji dengan uji yang lain, seperti yang ditunjukkan pada bagian
sebelumnya).
(iii). Hitung
)1/(
/)(
1
10
mpnSSEmSSESSE
F−−−
−= , (4.1.10)
dengan n adalah banyaknya pengamatan yang digunakan.
Dibawah hipotesis linearitas, F mendekati distribusi F dengan derajat bebas
m dan )1( mpn −−− . Penggunaan dari uji F menggantikan uji 2χ ini
didasarkan oleh rekomendasi dari teori asimtotis dalam sampel kecil, yaitu
karena uji ini mempunyai sifat-sifat kuasa dan ukuran yang baik (Harvey, 1990).
4.1.2 Desain Kajian Terapan Uji Nonlinearitas Tipe Lagrange Multiplier
(LM) dengan Ekspansi Taylor
Kajian terapan terhadap uji nonlinearitas tipe LM ini dilakukan melalui
studi simulasi yang difokuskan pada perbandingan kuasa (power) antara uji
Terasvirta yang dibahas pada bagian sebelumnya dengan uji White. Uji White
adalah uji nonlinearitas tipe LM dengan sampling acak yang diperkenalkan oleh
White (1989c) dan Lee dkk. (1993). Isu lain yang akan dikaji dalam studi simulasi
ini adalah efek dari outlier pada model linear terhadap kuasa dari kedua uji
tersebut.
Bab IV. FFNN untuk Peramalan Runtun waktu
77
Eksperimen Monte Carlo secara umum berupa dua kelompok pem-
bangkitan data univariat, yaitu linear dan nonlinear. Model-model linear yang
dipilih dalam eksperimen ini adalah model Autoregresif orde 2 atau AR(2) dan
model Gerak Acak. Model AR(2) mewakili kelompok model linear ARIMA dan
dalam hal ini dipilih koefisien 1,2 dan -0,6 yang memenuhi syarat stasioneritas.
Sedangkan model Gerak Acak mewakili kelompok model linear yang tidak
memenuhi syarat stasioner.
Ada dua model nonlinear yang digunakan dalam studi simulasi ini yaitu
model Logistic Smooth Transition Autoregressive (LSTAR) dan Exponential
Smooth Transition Autoregressive (ESTAR). Model LSTAR yang digunakan
secara umum mempunyai bentuk yang sama dengan yang telah digunakan oleh
Terasvirta dkk. (1993). Sedangkan model ESTAR yang dipilih adalah model yang
mempunyai bentuk yang sama dengan yang digunakan oleh Connor dkk. (1994).
Perbedaan kedua model ini adalah terletak pada besarnya nilai-nilai parameter
yang digunakan.
Secara umum, penentuan besarnya parameter pada studi simulasi
mengikuti Lee dkk. (1993). Secara lengkap model linear dan nonlinear yang
digunakan dalam studi simulasi ini adalah :
a. Kelompok model linear
(i). Model AR(2) : tttt uYYY +−= −− 21 6.02.1 , dengan )5.0,0(IIDN~ 2tu .
(ii). Gerak Acak : ttt uYY += −1 , dengan )5.0,0(IIDN~ 2tu .
(iii). Model Autoregresif dengan outlier atau AR(2)-O
tTttt uIYYY ++−= −− 56.02.1 21
dengan 1=TI untuk 101=T dan nol untuk 101≠T , )5.0,0(IIDN~ 2tu .
b. Kelompok model nonlinear
(i). Model LSTAR :
ttttttt uYFYYYYY ++−+−= −−−−− )()795.09.0(6.02.1 121021 θ
Bab IV. FFNN untuk Peramalan Runtun waktu
78
dengan 111 )]02.0(exp1[)( −
−− −−+= tt YYF γ , 02.00 =θ , 100=γ , dan
)05.0,0(IIDN~ 2tu .
(ii). Model Exponential Smooth Transition Autoregressive (ESTAR-1), yaitu
ttttttt uYFYYYYY ++−+−= −−−−− )()795.09.0(6.02.1 121021 θ
dengan .2000exp1)( 211 −− −−= tt YYF , dan )05.0,0(IIDN~ 2
tu .
(iii). Model Exponential Smooth Transition Autoregressive (ESTAR-2), yaitu
tttt uYYY +−= −− )25.0exp(.5.6 211 , dengan )5.0,0(IIDN~ 2
tu .
Untuk masing-masing model, besar ukuran sampel yang digunakan adalah 200.
Studi simulasi ini dilakukan dengan menggunakan program R, dan secara
lengkap script program untuk kajian terapan ini dapat dilihat pada Subanar dkk.
(2005).
Ilustrasi grafik yang berupa plot runtun waktu data dan plot data dengan
lag-lagnya dari hasil simulasi untuk kelompok model linear dapat dilihat pada
Gambar 4.2 dan 4.3. Gambar 4.2 adalah untuk model AR(2), sedangkan Gambar
4.3 untuk model Gerak Acak. Dari Gambar 4.2a dapat dilihat bahwa data relatif
stasioner dan hal ini sesuai dengan yang dipostulatkan. Berdasarkan plot lag-
lagnya, yaitu Gambar 4.2b sampai dengan 2e, dapat dijelaskan bahwa lag-lag
yang relatif kuat berhubungan linear dengan kejadian pada waktu ke-t, tY ,
adalah lag 1 dan 2, atau 1−tY dan 2−tY .
Hasil pada Gambar 4.3a menunjukkan bahwa pola data tidak stasioner
dan dari Gambar 4.3b sampai dengan 4.3e terlihat jelas bahwa ada hubungan
linear yang sangat kuat antara lag 1, 2, 3 dan 4, atau ,1−tY ,2−tY 3−tY dan 4−tY ,
dengan kejadian pada waktu ke-t atau tY . Adanya hubungan yang sangat kuat
terutama antara 1−tY dengan tY menunjukkan bahwa hasil simulasi telah sesuai
dengan postulat model yang sebenarnya, dimana hanya lag 1 yang ada dalam
model.
Bab IV. FFNN untuk Peramalan Runtun waktu
79
Gambar 4.2. Plot runtun waktu data (2a), dan plot data dengan lag-lagnya, yaitu 2b dengan lag 1, 2c dengan lag 2, 2d dengan lag 3, dan 2e dengan lag 4, dari data simulasi AR(2).
Gambar 4.3. Plot runtun waktu data (3a), dan plot data dengan lag-lagnya, yaitu 3b dengan lag 1, 3c dengan lag 2, 3d dengan lag 3, dan 3e dengan lag 4, dari data simulasi Gerak Acak.
Bab IV. FFNN untuk Peramalan Runtun waktu
80
Gambar 4.4 dan 4.5 adalah hasil ilustrasi grafik berupa plot runtun waktu
dan plot data dengan lag-lagnya dari simulasi untuk kelompok model nonlinear,
yaitu model LSTAR di Gambar 4.4 dan model ESTAR-2 pada Gambar 4.5. Dari
Gambar 4.4a dapat dilihat bahwa pola data fluktuatif di sekitar angka nol. Secara
visual pola data terlihat stasioner dan sulit membedakan dengan model linear
pada Gambar 4.2a sebelumnya. Begitu juga dengan visualisasi data dengan lag-
lagnya yang mengindikasikan bahwa bentuk hubungan linear dengan lag-lag
data masih relatif ada. Hal ini terutama dapat dilihat pada plot dengan lag 1 di
Gambar 4.4b. Kondisi ini sesuai dengan yang dipostulatkan dalam model bahwa
model LSTAR juga mengandung unsur model linear didalamnya. Gambar 4.4d
dan 4.4e juga menunjukkan bahwa lag 3 dan lag 4 relatif tidak berhubungan
dengan tY . Indikasi ini digambarkan dengan bentuk titik-titik pada plot lag-lag
tersebut yang relatif menyerupai suatu lingkaran.
Gambar 4.4. Plot runtun waktu data (4a), dan plot data dengan lag-lagnya, yaitu 4b dengan lag 1, 4c dengan lag 2, 4d dengan lag 3, dan 4e dengan lag 4, dari data simulasi LSTAR.
Bab IV. FFNN untuk Peramalan Runtun waktu
81
Gambar 4.5. Plot runtun waktu data (5a), dan plot data dengan lag-lagnya, yaitu 5b dengan lag 1, 5c dengan lag 2, 5d dengan lag 3, dan 5e dengan lag 4, dari data simulasi ESTAR-2.
Berbeda dengan model LSTAR sebelumnya, Gambar 4.5a mengin-
dikasikan bahwa data cenderung tidak stasioner dan berfluktuasi dengan pola
yang teratur disekitar angka nol. Hasil pada Gambar 4.5b sampai dengan 4.5e
menunjukkan dengan jelas bahwa bentuk hubungan dengan lag-lag data adalah
nonlinear. Hal ini terutama dapat dilihat pada plot data dengan lag 1 di Gambar
4.5b. Kondisi ini sesuai dengan postulat model sebenarnya yaitu lebih didominasi
unsur nonlinearnya.
4.1.3 Hasil Kajian Terapan Uji Nonlinearitas Tipe Lagrange Multiplier (LM)
dengan Ekspansi Taylor
Studi simulasi ini dilakukan pada masing-masing model di atas dengan
pengulangan sebanyak 1000 kali dan ukuran sampel sebesar 200. Banyak
pengulangan ini sama seperti yang telah dilakukan oleh Terasvirta dkk. (1993),
sedangkan besarnya ukuran sampel tersebut mewakili besar data yang besar
Bab IV. FFNN untuk Peramalan Runtun waktu
82
untuk suatu runtun waktu. Secara ringkas hasil-hasil perhitungan dari power
pada uji Terasvirta dan uji White pada keempat model simulasi di atas dapat
dilihat pada Tabel 4.1 dan secara grafik ditampilkan pada Gambar 4.6.
Nilai power ini adalah persentase terjadi kesimpulan tolak 0H dalam
1000 kali pengujian pada masing-masing model, di bawah kondisi 0H adalah
tidak benar. Dari Tabel 4.1 dan Gambar 4.6a dan 4.6b dapat dilihat dengan jelas
bahwa power pada kedua uji ini untuk model yang sesungguhnya linear dan
stasioner adalah sangat kecil. Dari hasil pada model AR(2) dapat dilihat dengan
jelas bahwa nilai power pada kedua uji tersebut mendekati nilai level signifikansi,
yaitu antara 0,01 dan 0,05.
Power ini akan semakin besar pada saat model yang ada adalah model
yang tidak stasioner, yang dalam penelitian ini diwakili oleh model Gerak Acak
pada Gambar 4.6b. Perbandingan uji nonlinearitas dan uji ketidakstasioneran
data (unit root test) pada suatu data runtun waktu secara mendalam dapat dilihat
pada Blake dan Kapetanios (2003).
Tabel 4.1. Hasil perbandingan power uji Terasvirta dan uji White pada keenam model simulasi (1000 kali pengulangan)
Hasil terpenting yang diperoleh dari studi simulasi pada model-model
linear ini adalah adanya fakta yang signifikan yang menunjukkan bahwa kedua uji
NN untuk linearitas ini sangat sensitif terhadap adanya outlier pada suatu data.
Hal ini ditunjukkan oleh hasil pada model AR(2)-O yang memberikan nilai power
sekitar 96% untuk uji White dan 99,9% untuk uji Terasvirta pada level signifikansi
0.05.
Bab IV. FFNN untuk Peramalan Runtun waktu
83
Berdasarkan hasil-hasil pada Tabel 4.1, dapat dilihat bahwa hasil
perbandingan power kedua uji pada model-model yang nonlinear menunjukkan
bahwa uji Terasvirta cenderung mempunyai power yang lebih tinggi dibanding uji
White. Hal ini terlihat jelas pada nilai power untuk model nonlinear LSTAR dan
ESTAR-1, baik pada level signifikansi 0,05 ataupun 0,01. Hasil dari penelitian ini
juga menunjukkan bahwa untuk data runtun waktu yang indikasi nonlinearnya
sangat kuat, dalam hal ini seperti pada model ESTAR-2, maka kedua uji ini
memberikan hasil yang sama baiknya.
4.2 Prosedur Pembentukan FFNN untuk Peramalan Runtun waktu
Bagian ini akan menjelaskan hasil-hasil kajian berkaitan dengan statistik
uji baru yang selanjutnya dapat digunakan dalam prosedur pembentukan model
FFNN untuk suatu permasalahan runtun waktu, baik prosedur “top-down”
ataupun “bottom-up”. Statistik uji yang dikembangkan adalah statistik uji untuk
evaluasi secara inferensia besaran penambahan R2 pada suatu network yang
dikenal dengan R2incremental. Penggunaan besaran ini secara deskriptif pertama
kali diperkenalkan oleh Kaashoek dan Van Dijk (2002). Kaashoek dan Van Dijk
(2002) mengombinasikan pemakaian R2incremental dengan koefisien loading pada
Principal Component Analysis untuk residual untuk evaluasi secara deskriptif
kontribusi suatu unit input dan unit neuron di lapis tersembunyi. Hasill-hasil dari
kajian ini juga telah dipublikasikan dalam Suhartono dkk. (2006a, 2006b), serta
pada Suhartono dan Subanar (2006).
4.2.1. Kontribusi Penambahan melalui R2
Kaashoek dan Van Dijk (2002) menyatakan bahwa suatu kandidat yang
natural untuk mengkuantifikasi performansi suatu network adalah kuadrat dari
koefisien korelasi antara Y dan Y ,
)ˆˆ)(()ˆ( 2
2
YYYYYYR
′′′
= (4.2.1)
Bab IV. FFNN untuk Peramalan Runtun waktu
84
dengan Y adalah vektor dari titik-titik output network. Performansi network
dengan penghapusan hanya satu unit neuron di lapis tersembunyi dapat diukur
dengan cara yang sama. Sebagai contoh, jika kontribusi dari unit neuron h
adalah nol )0( =hβ , maka network akan menghasilkan suatu output hY−
dengan kesalahan atau error,
hh YYe −− −= ˆ . (4.2.2)
Performansi network yang telah tereduksi ini dapat diukur dengan kuadrat
dari koefisien korelasi 2hR− antara Y dan Y , yaitu
)ˆˆ)(()ˆ( 2
2
hh
hh YYYY
YYR
−−
−− ′′
′= . (4.2.3)
Selanjutnya, kontribusi penambahan dari unit neuron h yang dinotasikan dengan 2
)(hR adalah
222)( hh RRR −−= . (4.2.4)
Prosedur yang sama dapat diaplikasikan untuk mereduksi jumlah unit
pada lapis input. Dalam hal ini, )(ˆ tY i− adalah output network dari suatu
arsitektur network dengan taksiran parameter-parameter tanpa melibatkan unit
input i . Jika kontribusi dari unit input i dikondisikan sama dengan nol ,0( =ihγ
dengan ;,,2,1 pi K= ),,2,1 qh K= , maka performansi network yang tereduksi ini
dapat dikuantifikasi dengan kuadrat dari koefisien korelasi antara Y dan iY− ,
yang dinotasikan 2iR− , yaitu
)ˆˆ)(()ˆ( 2
2
ii
ii YYYY
YYR
−−
−− ′′
′= . (4.2.5)
Kontribusi penambahan unit input i yang dinotasikan dengan 2)(iR diukur dengan
222)( ii RRR −−= . (4.2.6)
Nilai relatif dari kontribusi penambahan, baik 2)(iR dan 2
)(hR , secara deskriptif
oleh Kaashoek dan Van Dijk digunakan untuk mengevaluasi apakah suatu input
atau unit neuron di lapis tersembunyi dapat dihilangkan dari network atau tidak.
Bab IV. FFNN untuk Peramalan Runtun waktu
85
4.2.2. Inferensia Statistik dari Kontribusi Penambahan R2
Berbeda dengan pendekatan deskriptif yang menekankan aspek
eksplorasi data seperti pada Kaashoek dan Van Dijk (2002), pada bagian ini
akan diperkenalkan suatu prosedur baru yang berdasarkan pada inferensia
statistik dari kontribusi penambahan. Statistik uji ini dikonstruksi seperti pada
model linear yang dikenal dengan uji signifikansi bertahap. Uji ini melalui tiga
tahap utama, yaitu Model Tereduksi (Reduced Model), Model Lengkap (Full
Model), dan penentuan Uji Statistik.
Untuk mengonstruksi statistik uji ini, diperlukan modifikasi atau kondisi
tambahan selain Asumsi 3.2.1–3.2.3, 3.3.1 dan 3.3.2 pada bab sebelumnya.
Beberapa teorema dan asumsi yang dibutuhkan adalah sebagai berikut.
Teorema 4.2.1. Berdasarkan Teorema 3.3.1 diketahui bahwa
),(ˆ 2/1 ∗−∗Ν→ Cww ndn .
Jika f adalah suatu fungsi yang dapat diturunkan pada ∗w dan DDC ′*
mempunyai elemen-elemen diagonal yang semuanya tidak nol, maka
)),,(()ˆ,( 2/1 DDCww ′Ν→ ∗−∗ nXfXf td
nt ,
dengan D adalah suatu matriks )/( ji wf ∂∂ seperti yang dinyatakan pada
Proposisi 2.3.24.
Bukti: Dengan menggunakan Proposisi 2.3.24 maka bukti dari teorema ini dapat
diperoleh secara langsung.
Asumsi 4.2.1. , tt XY adalah suatu barisan variabel random yang independen
sedemikian hingga ∞<)( 2tYE , dan untuk suatu ∗w dalam lℜ , dengan
prpql )( += seperti pada Asumsi 3.2.2 sedemikian hingga
)),,((~| 20σ∗Ν wttt XfXY , ∞<< 2
00 σ , K,2,1=t .
Bab IV. FFNN untuk Peramalan Runtun waktu
86
Berdasarkan asumsi-asumsi tersebut, maka dapat dikonstruksi suatu teorema
berikut ini.
Teorema 4.2.2. (White, 1989a) Jika diberikan Asumsi 3.2.1–3.2.3, 3.3.1, 3.3.2
dan 4.2.1, maka untuk sembarang ln > diperoleh
20σ
SSE 2~ ln−χ ,
dengan ∑=
−=n
tntt XfYSSE
1
2)]ˆ,([ w , dan l adalah jumlah parameter yang di-
estimasi pada model )ˆ,( ntXf w .
Hasil ini selanjutnya dapat digeneralisasi untuk suatu model NN tertentu,
yaitu tntt XfY ε+= )ˆ,( w , dengan l parameter yang akan diestimasi, bahwa
220
20
1
2
~ln
SSE
n
tt
−=
∑= χ
σσ
ε.
Dengan demikian, dapat dikonstruksi uji statistik melalui beberapa tahapan
seperti Teorema berikut ini.
Teorema 4.2.3. Diberikan suatu Model Tereduksi (Reduced Model) yang secara
umum dapat ditulis dalam bentuk
)()( )ˆ,( Rt
Rntt XfY ε+= w , (4.2.7)
dengan Rl adalah jumlah parameter yang diestimasi, dan diberikan Model
Lengkap (Full Model) yang lebih kompleks dibanding Model Tereduksi, misalkan
adalah )()( )ˆ,( F
tF
ntt XfY ε+= w , (4.2.8)
dengan Fl adalah jumlah parameter yang diestimasi, dan RF ll > , maka di
bawah 0w =+∗:0H (nilai-nilai parameter (bobot) tambahan dalam model
lengkap adalah sama dengan nol), statistik
=F ])[],[()(
)()(21
~)/(
)/()(FRF lnvllv
FF
RFFR FlnSSE
llSSESSE−=−=−
−−. (4.2.9)
Bab IV. FFNN untuk Peramalan Runtun waktu
87
Statistik uji F ini dapat pula ditulis dalam bentuk
)()(
)()()()(
/)/()(
FF
FRFR
dfSSEdfdfSSESSE
F−−
= , (4.2.10)
dengan )(Rdf Rln −= adalah derajat bebas Reduced Model, dan )(Fdf Fln −=
adalah derajat bebas Full Model.
Bukti: Dari Model Tereduksi dan Model Lengkap diketahui bahwa RF ll > , dan
)(RSSE adalah independen dengan )(FSSE . Hal ini berimplikasi bahwa 2Rln−χ
dari model Tereduksi dan 2Fln−χ dari model Lengkap adalah independen, dengan
menggunakan implikasi Teorema Gamma Inverse Additivity (Mittelhammer 1996,
Teorema 4.4, halaman 190) diperoleh
20
)(20
)(
σσFR SSESSE
− 2~RF ll −χ .
Dengan membagi nilai tersebut dengan 2Fln−χ dari Model Lengkap, diperoleh
20)(
20)()(
/
/)(
σ
σ
F
FR
SSE
SSESSE −
)(
)()( )(
F
FR
SSESSESSE −
=
2
2
~F
RF
ln
ll
−
−
χ
χ.
Akhirnya, dengan membagi pembilang dengan selisih derajat bebas error dari
model Tereduksi dan model Lengkap, serta membagi penyebut dengan derajat
bebas error model Lengkap, dapat dibuktikan bahwa
)()(
)()()()(
/)/()(
FF
FRFR
dfSSEdfdfSSESSE −−
)/()/()(
)(
)()(
FF
RFFR
lnSSEllSSESSE
−
−−=
)(
)(2
2
Fln
RFll
ln
ll
F
RF
−
−=
−
−
χ
χ
])[];[( 21~
FRF lnvllvF −=−= .
Bab IV. FFNN untuk Peramalan Runtun waktu
88
Selain itu, akibat dari Teorema 4.2.3 maka statistik uji F pada
persamaan (4.2.10) dapat diturunkan dalam notasi kontribusi penambahan atau
R2incremental seperti pada Corollary berikut ini.
Corollary 4.2.1. Implikasi dari Teorema 4.2.3 maka statistik uji F pada
persamaan (4.2.10) dapat diturunkan dalam notasi kontribusi penambahan atau
R2incremental, yaitu
)(
2)(
)()(2
)(2
)(
)1(
)()(
FF
FRRF
dfR
dfdfRRF
−
−−= , (4.2.11a)
atau
)(
2)(
)()(2
lincrementa
)1(
)(
FF
FR
dfR
dfdfRF
−
−= , (4.2.11b)
dengan 2)(
2)(
2lincrementa RF RRR −= .
Bukti: Perhatikan kembali statistik uji pada Persamaan (4.2.10), yaitu
)()(
)()()()( )()(
FF
FRFR
dfSSEdfdfSSESSE
F−−
= .
Dalam pemodelan statistik, diketahui bahwa jumlah kuadrat total atau SST dapat
didekomposisikan menjadi jumlah kuadrat yang dijelaskan model (selanjutnya
dinotasikan SSR ) dan jumlah kuadrat residualnya )(SSE . Hal ini juga berlaku
pada pemodelan FFNN. Secara matematis, untuk model tereduksi (FFNN
dengan arsitektur sederhana) dan model lengkap (FFNN dengan arsitektur lebih
kompleks), hubungan tersebut dapat ditulis dengan
)()( RR SSESSRSST += ,
dan
)()( FF SSESSRSST += .
Bab IV. FFNN untuk Peramalan Runtun waktu
89
Karena nilai SST dari kedua model ini adalah sama, maka persamaan
(4.2.10) selanjutnya dapat ditulis dalam bentuk
)()(
)()()()(
][)]()([
FF
FRFR
dfSSRSSTdfdfSSRSSTSSRSST
F−
−−−−= ,
)()(
)()()()(
][)][
FF
FRRF
dfSSRSSTdfdfSSRSSR
−
−−= .
Melalui pembagian pembilang dan penyebut dengan SST , maka akan diperoleh
)()(
)()()()(
FF
FRRF
dfSST
SSRSST
dfdfSST
SSRSSR
F
−
−
−
= ,
)(
2)(
)()(2
)(2
)(
)1(
)()(
FF
FRRF
dfR
dfdfRR
−
−−= ,
)(
2)(
)()(2
lincrementa
)1(
)(
FF
FR
dfR
dfdfR
−
−= .
Penggunaan statistik uji untuk evaluasi kontribusi penambahan ini
dilakukan secara iteratif mulai tiga tahapan utama, yaitu (1) penaksiran model
Tereduksi, (2) penaksiran model Lengkap, dan (3) perhitungan uji statistik F ,
sampai diperoleh jumlah unit neuron di lapis tersembunyi yang optimal.
Selanjutnya, prosedur yang sama dapat dilakukan untuk mendapatkan jumlah
unit input yang optimal. Dalam hal ini, prosedur dimulai dengan menggunakan
unit input yang mempunyai nilai R2 yang terbesar.
Bab IV. FFNN untuk Peramalan Runtun waktu
90
4.2.3. Algoritma Pembentukan Model FFNN : Implementasi Uji Non-
linearitas, Inferensia Statistik R2incremental dan Uji Wald
Berdasarkan hasil-hasil pada bagian sebelumnya, maka suatu strategi
pembentukan model FFNN dapat dilakukan dengan mengimplementasikan uji
nonlinearitas, inferensia statistik kontribusi penambahan R2incremental, dan uji Wald.
Gambar 4.6 dan 4.7 adalah bagan yang menunjukkan dua prosedur (algoritma)
baru yang diperkenalkan untuk prosedur pembentukan model FFNN.
Prosedur pertama pada Gambar 4.6 adalah prosedur yang fokus pada
penggunaan inferensia statistik kontribusi penambahan dalam skema forward,
yang dimulai dengan penentuan jumlah unit di lapis tersembunyi yang optimal
dan dilanjutkan dengan pemilihan unit input yang optimal. Sedangkan prosedur
kedua pada Gambar 4.7 merupakan prosedur yang menggunakan kombinasi
inferensia statistik kontribusi penambahan dalam skema forward untuk
penentuan jumlah unit di lapis tersembunyi yang optimal dengan uji Wald dalam
skema backward untuk pemilihan unit input yang optimal.
Pada tahap awal di kedua prosedur tersebut dilakukan uji nonlinearitas
pada runtun waktu untuk mendeteksi adanya bentuk hubungan nonlinear pada
data. Jika tidak terbukti ada hubungan nonlinear, maka pemodelan berhenti dan
berakhir pada model runtun waktu yang linear, yaitu ARIMA. Sebaliknya, jika
terbukti ada bentuk hubungan nonlinear pada data maka strategi pembentukan
model FFNN secara iteratif dapat dilakukan dengan mengimplementasikan
inferensia R2incremental melalui statistik uji F.
Tahap pertama pembentukan model FFNN adalah menentukan jumlah
unit neuron pada lapis tersembunyi yang optimal. Dalam hal ini, strategi
pemodelan dilakukan dengan melibatkan variabel lag input yang relatif banyak,
misal lag 1 sampai 6 untuk kasus yang nonmusiman. Proses penentuan jumlah
unit neuron pada lapis tersembunyi yang optimal dilakukan dengan langkah maju
(forward) atau ”Bottom Up” dalam terminologi NN. Pada tahap ini, proses
penentuan didasarkan pada signifikansi statistik uji F untuk inferensia R2incremental
dengan bertambahnya unit neuron. Setelah diperoleh jumlah unit neuron pada
Bab IV. FFNN untuk Peramalan Runtun waktu
91
lapis tersembunyi yang optimal, maka tahap selanjutnya adalah penentuan
variabel lag input yang optimal.
Pada tahap penentuan variabel lag input yang optimal, proses penentuan
pada prosedur pertama dilakukan dengan langkah maju yang dimulai dengan
satu variabel lag input yang mempunyai nilai R2 paling besar. Kemudian, evaluasi
signifikansi kontribusi penambahan variabel lag input melalui inferensia
R2incremental dengan statistik uji F dilakukan secara iteratif sampai diperoleh
variabel input yang optimal. Proses berakhir dengan diperolehnya model FFNN
dengan variabel lag input dan jumlah unit neuron di lapis tersembunyi yang
optimal untuk peramalan runtun waktu. Sedangkan pada prosedur kedua,
evaluasi signifikansi parameter dari variabel lag input ke lapis tersembunyi
dilakukan melalui uji Wald. Eliminasi variabel lag input dilakukan pada parameter
dari variabel lag input yang tidak signifikan. Proses berakhir dengan diperolehnya
model FFNN terbaik untuk peramalan runtun waktu.
Implementasi dari prosedur pembentukan yang diperkenalkan ini dapat
dikombinasikan dengan memasukan kriteria pemilihan model terbaik, misalnya
Schwarz Information Criteria (SBC) pada tahap evaluasi jumlah unit neuron di
lapis tersembunyi dan penentuan variabel lag input yang optimal. Sebagai
tambahan, prosedur pembentukan model FFNN dengan hanya menggunakan
kriteria pemilihan model terbaik dapat dilihat pada Anders dan Korn (1999).
Bab IV. FFNN untuk Peramalan Runtun waktu
92
Mulai
Aplikasikan uji nonlinearitas untuk deteksi bentuk hubungan
nonlinear pada runtun waktu
Apakah uji nonlinearitas menunjukkan adanya bentuk
hubungan nonlinear ?
Spesifikasikan model FFNN dengan variabel input relatif banyak
dan 1 unit neuron di lapis tersembunyi sebagai tahap awal penentuan jumlah
unit neuron yang optimal
Apakah penambahan 1 unit neuron di lapis tersembunyi memberikan
R2incremental yang signifikan ?
Spesifikasikan model FFNN dengan jumlah unit neuron TETAP dari hasil
sebelumnya, dimulai dengan 1 variabel lag input yang mempunyai
nilai R2 terbesar.
Apakah penambahan 1 variabel lag input memberikan
R2incremental yang signifikan ?
Selesai
Gambar 4.6. Prosedur pembentukan model melalui inferensia R2incremental
YA
TIDAK
TIDAK
Aplikasikan model ARIMA
TIDAK
Masukkan 1 tambahan unit
neuron
YA
Masukkan 1 tambahan lag yg signifikan
YA
Bab IV. FFNN untuk Peramalan Runtun waktu
93
Mulai
Aplikasikan uji nonlinearitas untuk deteksi bentuk hubungan
nonlinear pada runtun waktu
Apakah uji nonlinearitas menunjukkan adanya bentuk
hubungan nonlinear ?
Spesifikasikan model FFNN dengan variabel input relatif banyak
dan 1 unit neuron di lapis tersembunyi sebagai tahap awal penentuan jumlah
unit neuron yang optimal
Apakah penambahan 1 unit neuron di lapis tersembunyi memberikan
R2incremental yang signifikan ?
Spesifikasikan model FFNN dengan jumlah unit neuron TETAP dari hasil sebelumnya, gunakan jumlah yang relatif cukup banyak untuk variabel
lag input yang ada pada model.
Melalui uji Wald, Apakah terdapat variabel lag input
yang tidak signifikan?
Selesai
Gambar 4.7. Prosedur kombinasi inferensia R2incremental dan uji Wald
YA
TIDAK
TIDAK
Aplikasikan model ARIMA
TIDAK
Masukkan 1 tambahan unit
neuron
YA
Eliminasi lag variabel yg
tdk signifikan.
YA
- 94 -
BAB V HASIL EMPIRIS
Ada empat macam kajian empiris utama yang telah dilakukan dalam
penelitian ini. Kajian pertama dilakukan untuk menunjukkan bahwa statistik uji F
untuk inferensia R2incremental dan uji Wald secara empiris dapat bekerja dengan
baik dalam proses penentuan model FFNN terbaik pada suatu data runtun waktu
univariat. Bagian ini dilakukan dengan menggunakan suatu data simulasi untuk
runtun waktu univariat yang nonlinear.
Kajian empiris kedua difokuskan pada perbandingan ketepatan ramalan
antara FFNN dengan model-model runtun waktu klasik. Ada dua kasus real
utama yang digunakan pada kajian ini, yaitu data inflasi bulanan di Indonesia dan
data jumlah penumpang pesawat udara internasional yang dikenal dengan Airline
Data. Data kedua ini merupakan salah satu data sentral yang menjadi kasus
utama pada kompetisi NN untuk peramalan pada Juni 2005 (lihat www.neural-
forecasting.com).
Pada kajian ketiga, fokus penelitian dilakukan pada pengenalan metode
baru untuk pemrosesan awal data NN, terutama pada kasus runtun waktu yang
mengandung tren dan musiman. Kajian ini memberikan peluang untuk
pembentukan model hybrid yang merupakan kombinasi dari model-model runtun
waktu dengan FFNN. Sebagai studi kasus digunakan data seperti pada kajian
kedua, yaitu Airline Data.
Pada akhirnya, kajian empiris dilakukan pada aplikasi FFNN untuk
peramalan runtun waktu multivariat. Fokus kajian adalah pada kasus spasial
runtun waktu. Pada bagian ini dilakukan pula evaluasi terhadap model space-
time, yaitu model Generalized Space Time Autoregressive (GSTAR), khususnya
evaluasi terhadap kondisi stasioneritas model GSTAR(11) dan metode penentuan
bobot spasial. Selain itu, diberikan pula hasil-hasil perbandingan ketepatan
ramalan antara FFNN dengan model-model runtun waktu multivariat. Sebagai
studi kasus, digunakan data produksi minyak pada tiga lokasi sumur pengeboran.
Bab V. Hasil Empiris
95
5.1 Pembentukan FFNN melalui Inferensia R2incremental dan Uji Wald
Ada dua prosedur pembentukan model FFNN yang digunakan dalam
bagian ini, yaitu langkah maju (forward) dan langkah mundur (backward). Dua
prosedur ini diimplementasikan pada suatu data simulasi. Penerapan uji statistik
untuk inferensia R2incremental dilakukan pada prosedur forward sesuai dengan
algoritma yang diperkenalkan pada bagian 4.3.
Eksperimen simulasi ini dilakukan dengan tujuan utama untuk menunjuk-
kan bagaimana prosedur pembentukan model NN yang diperkenalkan dapat
bekerja dengan baik. Data simulasi yang dibangkitkan adalah data yang
mengikuti model Exponential Smoothing Transition Autoregressive (ESTAR),
yaitu
tttt uYYY +−= −− ) 25.0exp( . 5.6 211 , (5.1.1)
dengan )5.0,0(IIDN~ 2tu .
Plot runtun waktu dan plot variabel lag dari data ini dapat dilihat pada
Gambar 5.1. Dari gambar ini dapat diamati bahwa data mengikuti suatu pola
yang stasioner, dan ada hubungan nonlinear yang kuat antara data tY dengan
data lag 1 atau 1−tY . Bentuk ini dikenal dengan autoregresi nonlinear pada lag 1.
5.1.1. Hasil Prosedur Backward versi Kaashoek dan Van Dijk
Prosedur backward yang dilakukan pada bagian ini adalah prosedur yang
diperkenalkan oleh Kaashoek dan Van Dijk (2002). Aplikasi dari prosedur ini
dimulai dengan FFNN yang melibatkan enam variabel lag input
),,,( 621 −−− ttt YYY K , satu input konstan dan enam unit neuron di lapis
tersembunyi. Secara umum, ada dua tahapan pada prosedur backward, yaitu
penentuan banyaknya unit neuron yang optimal di lapis tersembunyi dan
penentuan variabel lag input yang optimal. Proses penentuan banyaknya unit
neuron dan variabel lag input dilakukan secara simultan. Hasil-hasil optimisasi
untuk penentuan banyaknya unit neuron di lapis tersembunyi dapat dilihat pada
Tabel 5.1 dan 5.2.
Bab V. Hasil Empiris
96
Gambar 5.1. Plot runtun waktu dan plot variabel lag (yt-1, yt-2) dari data simulasi
Tabel 5.1. Hasil-hasil penentuan banyaknya unit yang optimal di lapis tersem-
bunyi dengan prosedur backward versi Kaashoek dan Van Dijk
Tahap Banyaknya unit di lapis tersembunyi SBC R2 R2
incr PCA
1 6 unit (6 input) -62,1157 0,98668 * tanpa h1 0,79924 0,18744 0,127 tanpa h2 0,07076 0,91592 0,843 tanpa h3 0,95844 0,02824 -0,043 tanpa h4 0,44489 0,54179 -0,371 tanpa h5 0,66586 0,32082 -0,365 tanpa h6 0,98010 0,00658 0,017 2 4 unit (1 input) -122,833 0,97545 * tanpa h1 0,95258 0,02288 -0,014 tanpa h2 0,22184 0,75361 0,737 tanpa h3 0,40196 0,57350 -0,675 tanpa h4 0,88360 0,09185 0,041 3 2 unit (1 input) -137,764 0,97246 * tanpa h1 0,36845 0,60588 0,762 tanpa h2 0,24701 0,72732 -0,610
Bab V. Hasil Empiris
97
Pada tahap pertama, dengan membandingkan kontribusi penambahan
dan nilai-nilai vektor eigen dari HH EE −−′ , maka unit neuron ke 3 dan 6 dapat
dikeluarkan dari model. Selanjutnya, secara simultan dari hasil pada Tabel 5.2
dapat dijelaskan bahwa unit input variabel lag 2 sampai dengan 6 atau
),,,( 621 −−− ttt YYY K dapat dikeluarkan dari model. Tahap ini memberikan hasil
sementara yaitu model FFNN dengan satu input variabel lag, yaitu lag 1, dan
empat unit neuron di lapis tersembunyi, yang dapat dinotasikan dengan
FFNN(1,4,1). Secara grafik, output dari network dengan mengeluarkan satu input
variabel lag dapat dilihat pada Gambar 5.2.
Tabel 5.2. Hasil-hasil penentuan unit input yang optimal dengan
prosedur backward versi Kaashoek dan Van Dijk
Tahap Lag unit input SBC R2 R2incr PCA
1 6 (lag 1-6) -62,1157 0,98668 *
tanpa lag 1 0,00476 0,98192 0,997
tanpa lag 2 0,96040 0,02628 0,042
tanpa lag 3 0,97614 0,01053 0,032
tanpa lag 4 0,97417 0,01251 -0,014
tanpa lag 5 0,96432 0,02235 -0,029
tanpa lag 6 0,97417 0,01251 -0,045
Hasil dari jalannya optimisasi lanjutan, yaitu tahap 2 dan 3, dapat dilihat
pada Tabel 5.1. Tahap 2 optimisasi menunjukkan bahwa unit neuron ke 1 dan 4
di lapis tersembunyi dapat dikeluarkan dari model. Dengan demikian, arsitektur
optimal dari FFNN untuk data simulasi ini dengan prosedur backward adalah
FFNN dengan satu unit input, 1−tY , dan dua unit neuron di lapis tersembunyi atau
FFNN(1,2,1).
Bab V. Hasil Empiris
98
Gambar 5.2. Output FFNN(6,6,1) tanpa satu unit variabel lag ),,,( 621 −−− ttt YYY K
dibandingkan dengan data aktual
5.1.2. Hasil Prosedur Forward melalui Uji R2incremental untuk Penentuan
Banyaknya Unit di Lapis Tersembunyi dan Unit Input yang Optimal
Berdasarkan algoritma prosedur forward yang dikonstruksi dan diper-
kenalkan pada bagian 4.3, penentuan arsitektur FFNN optimal dimulai pada
suatu FFNN dengan enam variabel input ),,,( 621 −−− ttt YYY K dan satu input
konstan untuk mendapatkan banyaknya unit neuron optimal di lapis tersembunyi.
Hasil dari tahap-tahap optimisasi dapat dilihat pada Tabel 5.3.
Bab V. Hasil Empiris
99
Table 5.3. Hasil-hasil penentuan banyaknya unit neuron yang optimal di lapis tersembunyi dengan prosedur forward melalui uji R2
incremental
Banyaknya unit neuron di lapis
tersembunyi SBC R2 R2
incremental Uji F p-value
0 1 2 3 4 5 6
234,4843 182,0737 -72,8918 -61,4821 -45,5007 -33,6011 2,70047
0,161569 0,547258 0,975535 0,981029 0,984601 0,987999 0,988065
- 0,385689 0,428277 0,005494 0,003572 0,003398 0,000066
- 28,5667
7,7719 0,0518 0,0300 0,0251 0,0004
- 0,00000 0,00000 0,99993 0,99999 1,00000 1,00000
Tabel 5.3 menunjukkan bahwa banyaknya unit neuron di lapis
tersembunyi sebesar 2 adalah hasil yang optimal dan jalannya optimisasi
selanjutnya tidak diperlukan lagi. Grafik dari output network dengan
menambahkan satu unit neuron di lapis tersembunyi dapat dilihat pada Gambar
5.3. Dengan demikian, proses optimisasi dilanjutkan untuk menentukan variabel
input yang optimal.
Gambar 5.3. Output network dengan menambahkan satu unit neuron di lapis tersembunyi dibandingkan dengan data aktual
Bab V. Hasil Empiris
100
Hasil-hasil optimisasi untuk penentuan input yang optimal dapat dilihat
pada Tabel 5.4. Dari tabel ini dapat dijelaskan bahwa unit input 1, yaitu 1−tY ,
adalah unit lag input yang optimal dari network. Dengan demikian, prosedur
forward menghasilkan arsitektur terbaik dari network yaitu FFNN dengan satu
input variabel lag dan dua unit neuron di lapis tersembunyi atau FFNN(1,2,1).
Tabel 5.4. Hasil-hasil penentuan unit input yang optimal dengan
prosedur forward melalui uji R2incremental
Lag input SBC R2 R2
incremental Uji F p-value
1 2 3 4 5 6
-137,764 235,233 272,478 284,580 285,902 278,594
0,97246 0,38365 0,15933 0,07013 0,05983 0,11538
- - - - - -
- - - - - -
- - - - - -
1 dan 2 1 dan 3 1 dan 4 1 dan 5 1 dan 6
-130,900 -129,091 -129,109 -128,554 -130,326
0,97308 0,97267 0,97267 0,97255 0,97295
0,00062 0,00021 0,00021 0,00008 0,00049
1,23955 0,41540 0,42346 0,16830 0,97934
0,29349 0,66110 0,65583 0,84532 0,37878
Secara umum, hasil-hasil kajian simulasi pada prosedur backward dan
forward menunjukkan bahwa arsitektur FFNN optimal yang dihasilkan oleh kedua
prosedur adalah sama, yaitu FFNN(1,2,1). Hasil ini juga menunjukkan bahwa
prosedur forward dengan implementasi inferensia R2incremental terbukti dapat
bekerja dengan baik untuk penentuan model FFNN terbaik. Perbandingan
banyaknya running untuk mendapatkan arsitektur FFNN terbaik menunjukkan
bahwa prosedur forward ini memberikan jumlah running yang lebih kecil daripada
prosedur yang diperkenalkan Kaashoek dan Van Dijk. Sebagai tambahan, hasil-
hasil dari kajian ini telah dipublikasikan dan secara lengkap dapat dilihat pada
Suhartono dkk. (2006a, 2006b), serta Subanar dan Suhartono (2006b).
Bab V. Hasil Empiris
101
5.1.3. Hasil Prosedur Backward dengan Uji Wald untuk Pemilihan Unit
Input yang Optimal
Pada bagian ini hanya akan diberikan hasil-hasil optimisasi pemilihan unit
input yang optimal, karena hasil penentuan banyaknya unit yang optimal di lapis
tersembunyi adalah sama dengan hasil bagian sebelumnya. Hasil optimisasi
untuk penentuan input ini dapat dilihat pada Tabel 5.5. Dari tabel ini dapat
dijelaskan bahwa unit input 1, yaitu 1−tY , adalah unit lag input yang optimal dari
network, karena memberikan nilai-nilai parameter yang secara statistik signifikan
berbeda dengan nol. Hal ini ditunjukkan oleh nilai p-value dari uji Wald yang lebih
kecil dari 0,05. Dengan demikian, prosedur backward melalui uji Wald
menghasilkan arsitektur terbaik dari network yaitu FFNN dengan satu input
variabel lag dan dua unit neuron di lapis tersembunyi atau FFNN(1,2,1).
Tabel 5.5. Hasil-hasil penentuan banyaknya unit di lapis tersembunyi
yang optimal dengan prosedur backward melalui uji Wald
Weights Coefficient S.E. Wald test p-value
b ->h1 1->h1 2->h1 3->h1 4->h1 5->h1 6->h1 b->h2 1->h2 2->h2 3->h2 4->h2 5->h2 6->h2 b->o
h1->o h2->o
-0,0122 0,9630 -0,0165 -0,0016 -0,0060 -0,0009 0,0020 -0,0005 1,3477 -0,0175 -0,0038 -0,0048 -0,0006 -0,0008 0,3878
-77,4291 76,5030
0,0352 0,0556 0,0108 0,0068 0,0068 0,0071 0,0069 0,0369 0,0746 0,0116 0,0081 0,0080 0,0080 0,0078 0,1474
23,8600 23,9097
0,1203
300,0898 2,3532 0,0555 0,7712 0,0162 0,0846 0,0002
326,0336 2,2753 0,2198 0,3584 0,0057 0,0104 6,9216
10,5307 10,2381
0,728733 0,000000 0,125021 0,813763 0,379829 0,898732 0,771153 0,989196 0,000000 0,131440 0,639206 0,549406 0,939963 0,918691 0,008515 0,001174 0,001376
Secara umum, hasil-hasil kajian simulasi pada prosedur backward melalui
uji Wald dan forward menunjukkan bahwa arsitektur FFNN optimal yang
dihasilkan oleh ketiga prosedur adalah sama, yaitu FFNN(1,2,1). Hasil ini juga
Bab V. Hasil Empiris
102
menunjukkan bahwa kedua prosedur baru yang diperkenalkan, yaitu
implementasi inferensia R2incremental dan uji Wald terbukti dapat bekerja dengan
baik untuk penentuan model FFNN terbaik. Seperti pada bagian sebelumnya,
perbandingan banyaknya running untuk mendapatkan arsitektur FFNN terbaik
menunjukkan bahwa prosedur backward melalui uji Wald ini memberikan jumlah
running yang lebih kecil daripada prosedur yang diperkenalkan Kaashoek dan
Van Dijk. Sebagai tambahan, hasil-hasil kajian ini telah dipublikasikan dan secara
lengkap dapat dilihat pada Suhartono dkk. (2006a, 2006b), serta Subanar dan
Suhartono (2006b).
5.2. Perbandingan Ketepatan Ramalan antara FFNN dan Model
Runtun Waktu Univariat Klasik
Kajian perbandingan ini dilakukan pada dua kasus real, yaitu data inflasi
Indonesia dan data jumlah penumpang pesawat internasional (Airline data).
Ramalan inflasi Indonesia pada bulan-bulan yang akan datang merupakan salah
satu topik kompetisi rutin yang diadakan oleh Bank Indonesia. Sedangkan, Airline
data adalah salah satu data yang paling banyak dipakai sebagai benchmark
untuk perbandingan antar beberapa model peramalan (Faraway dan Chatfield,
1998).
5.2.1. Hasil Perbandingan pada Kasus Inflasi Indonesia
Data inflasi Indonesia yang digunakan dalam kajian ini adalah inflasi
bulanan yang diamati mulai Januari 1999 sampai dengan April 2005, atau terdiri
dari 76 pengamatan. Pembentukan model dilakukan pada 72 data pertama
(dalam model NN dikenal sebagai data training), dan 4 data terakhir digunakan
sebagai evaluasi dan perbandingan ketepatan ramalan (data testing). Secara
grafik, data inflasi ini dapat dilihat pada Gambar 5.4. Dari gambar ini dapat
dijelaskan bahwa data mempunyai pola yang relatif stasioner dengan sedikit
variasi musiman.
Bab V. Hasil Empiris
103
Ada empat model peramalan yang digunakan dalam kajian perbandingan
ini, yaitu model ARIMA, Kombinasi Intervensi dan Variasi Kalender (ARIMAX),
FFNN dengan input seperti ARIMA, dan FFNN dengan input seperi ARIMAX.
Model ARIMAX digunakan terutama untuk mengevaluasi efek adanya hari raya
Idul Fitri dan kenaikan harga bahan bakar minyak (BBM) terhadap inflasi.
Penentuan model terbaik dilakukan dengan metode cross validation, yaitu model
yang memberikan kesalahan terkecil pada ramalan data testing. Secara lengkap,
tahapan pembentukan model untuk masing-masing model peramalan pada
kajian ini dapat dilihat pada Suhartono (2005).
Gambar 5.4. Plot runtun waktu inflasi Indonesia, Januari 1999 – April 2005.
Evaluasi perbandingan ketepatan ramalan untuk menentukan model
terbaik difokuskan pada ramalan secara dinamis pada data testing.
Perbandingan dilakukan dengan menggunakan nilai Mean Squares of Error
(MSE), dan rasio kesalahan ramalan (yang diwakili oleh MSE) pada masing-
masing model terhadap kesalahan ramalan model FFNN dengan input
berdasarkan model ARIMAX dan hasilnya dapat dilihat pada Tabel 5.6.
Bab V. Hasil Empiris
104
Tabel 5.6. Ringkasan hasil perbandingan ramalan secara dinamis
Model Peramalan MSE (data testing)
Rasio MSE (terhadap FFNN dengan input seperti ARIMAX)
§ ARIMA(1,0,0)(1,0,0)11 0,6826480 3,02
§ ARIMAX 0,2407240 1,07
§ FFNN dengan input seperti ARIMA 0,4711709 2,08
§ FFNN dengan input seperti ARIMAX 0,2261001 1,00
Pada Tabel 5.6, angka lebih dari satu di kolom rasio MSE mengindikasi-
kan performansi ramalan yang ketepatannya lebih rendah dibandingkan hasil
ramalan model FFNN dengan input seperti ARIMAX. Berdasarkan hasil pada
tabel ini, dapat disimpulkan bahwa FFNN dengan input seperti ARIMAX adalah
model yang terbaik. Secara khusus, hasil uji linearitas dengan input seperti
ARIMAX menunjukkan tidak ada hubungan nonlinear pada data. Kondisi ini
berimplikasi pada hasil ketepatan ramalan model ARIMAX dan FFNN dengan
input seperti ARIMAX tidak berbeda nyata. Hasil dari kajian perbandingan ini
secara lengkap dapat dilihat di Suhartono (2005), dan Suhartono dkk. (2006c).
5.2.2. Hasil Perbandingan pada Airline Data
Data jumlah penumpang pesawat internasional (Airline data) terdiri dari
144 pengamatan bulanan, yaitu mulai Januari 1949 sampai Desember 1960.
Pada kajian ini, 120 pengamatan pertama digunakan sebagai data training dan
24 pengamatan terakhir sebagai data testing. Gambar 5.5 adalah plot runtun
waktu dari data Airline. Dari gambar ini dapat dilihat dengan jelas bahwa data
mengandung pola tren naik dan variasi musiman.
Pada kasus kedua ini, lima model peramalan digunakan dalam kajian
perbandingan ini, yaitu model Winter’s, Dekomposisi, Regresi Runtun waktu,
ARIMA, dan FFNN. Seperti pada kasus pertama, penentuan model terbaik
dilakukan dengan metode cross validation, yaitu model yang memberikan
kesalahan terkecil pada ramalan data testing.
Bab V. Hasil Empiris
105
Gambar 5.5. Plot runtun waktu data jumlah penumpang pesawat internasional
Hasil pembentukan model Winter’s dengan grid sebesar 0,1 untuk ketiga
parameter memberikan dua model terbaik, yaitu model 1 (Winter’s dengan
α =0.9, β =0.1 dan γ =0.3) dan model 2 (Winter’s dengan α =0.1, β =0.2 dan
γ =0.4). Selanjutnya, proses pembentukan model ARIMA dilakukan pada data
yang terlebih dulu ditransformasi ln untuk menstasionerkan variansi data. Melalui
prosedur Box-Jenkins diperoleh dua model dugaan yang sesuai, yaitu model 1
(ARIMA[0,1,1][0,1,1]12) dan model 2 (ARIMA[1,1,0][0,1,1]12).
Sedangkan proses pembentukan model FFNN dilakukan dengan 3
variabel lag input (yaitu 13121 ,, −−− ttt YYY ) dan banyaknya unit neuron di lapis ter-
sembunyi mulai 1 sampai 3. Dalam hal ini model 1, 2, dan 3 secara berurutan
menunjukkan banyaknya unit neuron di lapis tersembunyi sebanyak 1, 2, dan 3.
Secara lengkap tahapan pembentukan model untuk kelima model peramalan
pada kajian ini secara lengkap dapat dilihat pada Suhartono dkk. (2005a).
Hasil evaluasi perbandingan ketepatan ramalan dari kelima model
peramalan dapat dilihat pada Tabel 5.7. Dari tabel ini dapat dijelaskan bahwa
model yang memberikan ramalan lebih baik di data training tidak selalu juga
memberikan hasil ramalan yang lebih baik di data testing. Hal ini dapat dilihat
pada hasil model Winter’s, ARIMA dan FFNN.
Testing data
Training data
Bab V. Hasil Empiris
106
Tabel 5.7. Hasil perbandingan antara kelima model peramalan pada data
training dan testing
DATA TRAINING DATA TESTING MODEL PERAMALAN
MSE MAE MAPE MSE MAE MAPE
§ Winter’s (*) a. Model 1 b. Model 2 § Dekomposisi (*)
§ Regresi Runtun Waktu (*) § ARIMA a. Model 1 b. Model 2 § FFNN a. Model 1 b. Model 2 c. Model 3
97,734 146,858
215,457
198,156
88,644 88,862
93,147 85,846 70,172
7,302 9,406
11,470
10,213
7,387 7,333
7,631 7,370 6,610
3,183 4,056
5,059
4,138
2,954 2,926
3,174 3,100 2,798
12096,80 3447,82
1354,88
2196,87
1693,68 1527,03
1282,31 299713,20
11216,48
101,501 52,109
29,974
42,971
37,401 35,306
32,623 406,992
62,988
21,784 11,455
6,175
9,943
8,034 7,580
7,292 88,411 12,384
(*) : error atau residual dari model tidak white noise
Berdasarkan hasil perbandingan pada Tabel 5.7 di atas, secara umum
dapat dilihat bahwa FFNN dengan 1 unit neuron di lapis tersembunyi mem-
berikan nilai MSE yang terkecil, sedangkan model Dekomposisi menghasilkan
nilai Mean Absolute Error (MAE) dan Mean Absolute Percentage Error (MAPE)
yang terkecil. Evaluasi kesesuaian model melalui uji apakah residual model
memenuhi syarat white noise menunjukkan bahwa residual dari model Winter’s,
Dekomposisi, dan Regresi Runtun waktu adalah belum white noise. Secara
statistik, hal ini berarti proses pemodelan pada ketiga model ini belum selesai
dan dapat dilanjutkan dengan menggunakan model peramalan yang lain. Hasil ini
memberikan peluang untuk dilakukan penelitian lanjutan dengan
mengkombinasikan ketiga model ini dengan model yang lain, misalnya dengan
ARIMA atau FFNN. Sebagai tambahan, seperti pada hasil-hasil sebelumnya,
hasil kajian perbandingan untuk Airline data ini juga telah dipublikasikan dan
secara lengkap dapat dilihat pada Suhartono dkk. (2005a, 2005c).
Bab V. Hasil Empiris
107
5.3. Efek Pemrosesan Awal Data Terhadap Ramalan FFNN
Hasil dari kajian perbandingan antara FFNN dan model-model runtun
waktu klasik di bagian sebelumnya, terutama pada kasus Airline data
memberikan inspirasi untuk dilakukan penelitian lanjutan tentang suatu model
hybrid yang merupakan gabungan antara model runtun waktu klasik dan FFNN.
Pada bagian ini akan diberikan hasil-hasil kajian kombinasi antara metode
dekomposisi sebagai pemrosesan awal data dan FFNN, khususnya untuk
peramalan runtun waktu yang mengandung tren dan musiman. Efek pemrosesan
awal data merupakan salah satu topik sentral pada kompetisi NN untuk
peramalan pada Juni 2005 (lihat www.neural-forecasting.com).
Metode dekomposisi adalah metode peramalan yang bekerja dengan
cara mendekomposisi data menjadi beberapa bagian, terutama komponen tren
dan musiman. Pada bagian ini, metode pemrosesan awal data yang dicoba dan
dibandingkan efeknya adalah detrend, deseasonal, dan detrend-deseasonal
(metode dekomposisi). Kajian ini dilakukan pada dua data, yaitu data simulasi
dan Airline data, yang keduanya mengandung pola tren dan musiman. Gambar
5.6 berikut ini adalah plot runtun waktu dari data simulasi.
Gambar 5.6. Plot runtun waktu dari data simulasi
Testing data
Training data
Simulation data
Bab V. Hasil Empiris
108
Tabel 5.8 adalah hasil-hasil dari efek pemrosesan awal data terhadap
ketepatan ramalan model FFNN pada data training dan testing untuk data
simulasi. Seperti pada bagian sebelumnya, angka lebih dari satu pada kolom
rasio MSE mengindikasikan bahwa ketepatan ramalan pada model tersebut
adalah lebih rendah dibanding model ARIMA, dan sebaliknya. Sedangkan hasil-
hasil efek pemrosesan awal data FFNN pada Airline data dapat dilihat pada
Tabel 5.9. Dalam hal ini, variabel lag input yang digunakan dalam FFNN adalah
lag 1, 12, dan 13, seperti yang telah dipakai oleh Faraway dan Chatfield (1998),
dan Suhartono dkk. (2005a). Sedangkan banyaknya unit neuron di lapis
tersembunyi yang dicobakan adalah 1 sampai 10. Sehingga secara umum FFNN
yang dipakai adalah FFNN(3,q,1), dengan q adalah banyaknya unit neuron di
lapis tersembunyi.
Ada beberapa hal yang dapat diamati dari Tabel 5.8 dan 5.9. Pertama,
detrend adalah pemrosesan awal data FFNN yang menghasilkan nilai ramalan
yang lebih rendah akurasinya dibanding dengan FFNN pada data asli ataupun
ARIMA. Hal ini ditunjukkan oleh nilai rasio MSE pada data testing untuk NN
dengan detrend sebagai pemrosesan awal data yang lebih besar dari 1. Kedua,
deseasonal adalah pemrosesan awal data FFNN yang menghasilkan nilai
ramalan yang paling rendah akurasinya dibanding lainnya. Kondisi ini ditunjukkan
oleh nilai rasio MSE pada data testing yang paling besar. Ketiga, metode
dekomposisi atau kombinasi detrend-deseasonal sebagai pemrosesan awal data
FFNN memberikan ketepatan ramalan yang paling akurat, baik pada data
simulasi ataupun Airline data. Hal ini ditunjukkan oleh nilai rasio MSE yang paling
kecil.
Secara umum, berdasarkan nilai-nilai rasio MSE terhadap model ARIMA
dapat dijelaskan bahwa metode dekomposisi (detrend-deseasonal) adalah
pemrosesan awal data pada FFNN yang menghasilkan ramalan terbaik. Nilai
MSE yang tereduksi sangat signifikan jika dibandingkan dengan FFNN tanpa
pemrosesan dengan metode dekomposisi, yaitu tereduksi 58.8% pada data
simulasi dan 61.8% pada Airline data.
Bab V. Hasil Empiris
109
Tabel 5.8. Hasil perbandingan efek pemrosesan awal data untuk FFNN dan ARIMA pada data simulasi
DATA TRAINING DATA TESTING
Model Peramalan dan Pemrosesan awal data MSE Rasio thdp
ARIMA MSE Rasio thdp ARIMA
§ ARIMA
0,02347
1
0,02011
1
§ FFNN (1). Data Asli a. FFNN (3,1,1) (**)
b. FFNN (3,10,1) (*) (2). Detrend a. FFNN (3,2,1) (**) b. FFNN (3,10,1) (*) (3). Deseasonal §. FFNN (3,3,1) (**) (*) (4). Detrend-Deseasonal a. FFNN (3,5,1) (**) b. FFNN (3,10,1) (*)
0,01731 0,00598
0,01701 0,00697
0,55763
0,00511 0,00364
0,738 0,255
0,725 0,297
23,762
0,218 0,155
0,02433 0,40411
0,02524 0,07230
2,95179
0,00948 4,30889
1,210 20,095
1,255 3,595
146,782
0,472 214,266
(*) : model terbaik pada data training (**) : model terbaik pada data testing
Tabel 5.9. Hasil perbandingan efek pemrosesan awal data untuk FFNN
dan ARIMA pada data Airline
DATA TRAINING DATA TESTING Model Peramalan dan Pemrosesan awal data MSE Rasio thdp
ARIMA MSE Rasio thdp ARIMA
§ ARIMA
88,8618
1
1527,03
1
§ FFNN dan transformasi
data menjadi N(0,1) (1). Data Asli a. FFNN (3,1,1) (**)
b. FFNN (3,10,1) (*) (2). Detrend a. FFNN (3,4,1) (**) b. FFNN (3,10,1) (*) (3). Deseasonal a. FFNN (3,6,1) (**) b. FFNN (3,10,1) (*) (4). Detrend-Deseasonal a. FFNN (3,4,1) (**) b. FFNN (3,10,1) (*)
92,8729 26,3230
71,0023 20,2050
25,2444 12,9047
35,4608 11,3842
1,045 0,296
0,799 0,227
0,284 0,145
0,399 0,128
1219,81 5299,06
1672,27 5630,35
4218,18 255939,30
582,93 1532,17
0,799 3,470
1,095 3,687
2,762 167,609
0,382 1,003
(*) : model terbaik pada data training (**) : model terbaik pada data testing
Bab V. Hasil Empiris
110
Dengan demikian dapat disimpulkan bahwa pemrosesan awal data runtun
waktu yang mengandung tren dan musiman dengan metode dekomposisi pada
FFNN memberikan efek yang besar terhadap peningkatan akurasi nilai ramalan
pada FFNN. Hasil ini juga memberikan peluang untuk kajian lebih lanjut terhadap
pemakaian model hybrid antara FFNN dengan model-model runtun waktu yang
lain. Seperti pada bagian sebelumnya, hasil-hasil dari kajian ini telah pula
dipublikasikan dan secara lengkap dapat dilihat pada Suhartono dkk. (2005b),
serta Suhartono dan Subanar (2006a).
5.4. Aplikasi FFNN untuk Peramalan Runtun waktu Multivariat
Data runtun waktu dalam beberapa studi empiris seringkali terdiri dari
pengamatan dari beberapa variabel, atau dikenal dengan data deret waktu
multivariat (Box dkk., 1994). Sebagai contoh, dalam studi tentang penjualan
suatu produk, variabel-variabel yang mungkin terlibat adalah volume penjualan,
harga dan biaya iklan.
Seringkali dalam kehidupan sehari-hari kita jumpai data yang tidak hanya
mengandung keterkaitan dengan kejadian pada waktu-waktu sebelumnya, tetapi
juga mempunyai keterkaitan dengan lokasi atau tempat yang lain yang seringkali
disebut dengan data spasial. Model space-time adalah salah satu model yang
menggabungkan unsur dependensi waktu dan lokasi pada suatu data deret
waktu multivariat. Model space-time ini pertama kali diperkenalkan oleh Pfeifer
dan Deutsch (1980a, 1980b).
Model GSTAR (Generalized Space-Time Autoregressive) adalah salah
satu model yang banyak digunakan untuk memodelkan dan meramalkan data
deret waktu dan lokasi. Model ini merupakan pengembangan dari model STAR
(Space-Time Autoregressive) yang diperkenalkan oleh Pfeifer dan Deutsch.
Dalam praktek, model GSTAR ini banyak diaplikasikan pada permasalahan
geologi dan ekologi (Ruchjana, 2003). Model lain yang juga dapat digunakan
untuk pemodelan data deret waktu dan lokasi adalah model VAR atau Vector
Autoregressive (Suhartono dan Atok, 2005).
Bab V. Hasil Empiris
111
Secara matematis, notasi dari model GSTAR(p1) adalah sama dengan
model STAR(p1). Perbedaan utama dari model GSTAR(p1) ini terletak pada nilai-
nilai parameter pada lag spasial yang sama diperbolehkan berlainan. Dalam
notasi matriks, model GSTAR(p1) dapat ditulis sebagai berikut (Borovkova dkk.,
2002)
[ ] )()()(1
10 tkttp
kkk eZWΦΦZ +−+= ∑
= (5.4.1)
dengan
§ ( )Nk0
1k00 ,,diag φφ K=kΦ dan ( )N
k11k11 ,,diag φφ K=kΦ ,
§ bobot-bobot dipilih sedemikian hingga 0=iiw dan ∑ ≠ =ji ijw 1 .
Sebagai contoh, model GSTAR(11) untuk kasus produksi minyak pada
suatu waktu di tiga lokasi yang berbeda dapat ditulis sebagai berikut (Ruchjana,
2002)
)()1(][)( 1110 ttt eZWΦΦZ +−+= (5.4.2)
atau
+
−−−
+
=
)()()(
)1()1()1(
00
0
000000
000000
)()()(
3
2
1
3
2
1
3231
2321
1312
31
21
11
30
20
10
3
2
1
tetete
tztztz
wwwwww
tztztz
φφ
φ
φφ
φ.
Penaksiran parameter model GSTAR dapat dilakukan dengan menggunakan
metode kuadrat terkecil dengan meminimumkan jumlah kuadrat simpangannya.
Secara lengkap teori dan metodologi yang berkaitan dengan estimasi model
GSTAR ini dapat dibaca di Borovkova et al. (2002) dan Ruchjana (2002).
Pada bagian ini ada tiga kajian utama yang dilakukan, yaitu evaluasi
terhadap kondisi stasioneritas model space-time GSTAR(11), evaluasi metode
penentuan bobot lokasi (spasial), dan kajian perbandingan ketepatan ramalan
antara FFNN dengan model-model runtun waktu multivariat. Dalam hal ini, kajian
difokuskan pada runtun waktu multivariat yang juga merupakan spasial runtun
waktu.
Bab V. Hasil Empiris
112
5.4.1. Evaluasi Kondisi Stasioneritas Model GSTAR(11)
Borovkova dkk. (2002) dan Ruchjana (2003) menyatakan bahwa model
GSTAR, khususnya model GSTAR(11), merupakan model versi terbatas
(restricted version) dari model VAR. Oleh sebab itu, kondisi stasioneritas dari
model GSTAR dapat diturunkan dari kondisi stasioneritas pada model VAR.
Jika diberikan )(tZ i dengan Τ∈t , ,,2,1 TK=Τ merupakan indeks
parameter waktu dan ,,2,1 Ni K= menunjukkan variabel yang terhitung dan
terbatas (misalkan berupa hasil minyak bulanan pada lokasi yang berbeda),
maka model VAR(p) secara umum dapat dinyatakan dalam (lihat Brockwell dan
Davis, 1991; Hamilton, 1994; atau Wei, 1990)
)()()2()1( )( 21 tptttt p eZΦZΦZΦZ +−++−+−= L , (5.4.3)
dengan )(tZ adalah vektor deret waktu multivariat yang terkoreksi nilai rata-
ratanya, )(BiΦ adalah suatu matriks autoregressive polinomial orde i, dan )(te
menyatakan suatu vektor error yang white noise.
Kondisi stasioneritas dari model VAR(p) dapat ditemukan pada beberapa
buku runtun waktu, antara lain di Brockwell dan Davis (1991), Hamilton (1994),
atau Wei (1990). Berikut ini adalah proposisi yang berkaitan dengan kondisi
stasioneritas pada model VAR(p).
Proposisi 5.4.1. Suatu model VAR(p) adalah proses yang stasioner jika nilai-nilai
eigen dari matrik autoregressive polinomial orde p yang memenuhi
022
11 =−−−− −−
pppp
n ΦΦΦI Lλλλ
semuanya berada didalam unit lingkaran, atau 1|| <λ .
Bukti. Lihat Hamilton (1994) halaman 285-286.
Secara khusus, model GSTAR(11), )()1(][)( 1110 ttt eZWΦΦZ +−+= ,
dapat direpresentasikan dalam model VAR(1), )()1()( 1 ttt eZΦZ +−= , dengan
][ 11101 WΦΦΦ += . (5.4.4)
Bab V. Hasil Empiris
113
Dengan demikian, model GSTAR(11) secara umum adalah suatu proses yang
stasioner jika semua nilai eigen dari matrik [ ]WΦΦ 1110 + memenuhi Proposisi
5.4.1, yaitu semua eigen berada didalam unit lingkaran atau 1|| <λ .
Borovkova dkk. (2002) dan Ruchjana (2003) menerapkan Proposisi 5.4.1,
dan mendapatkan suatu teorema untuk kondisi stasioneritas model GSTAR(11)
seperti berikut.
Teorema 5.4.1. Suatu model GSTAR(11) adalah suatu proses yang stasioner,
jika parameter-parameter 0iφ pada 10Φ dan 1iφ pada 11Φ memenuhi
1|| 10 ≤+ ii φφ dan 1|| 10 ≤− ii φφ . (5.4.5)
Berikut ini akan ditunjukkan secara empiris beberapa kasus dimana
Teorema 5.4.1 yang dihasilkan oleh Borovkova dkk. (2002) adalah tidak valid dan
tidak sesuai dengan Proposisi 5.4.1 yang merupakan dasar penurunan teorema
tersebut.
§ Kasus 1
Pada saat ada satu atau lebih parameter pada 10Φ yang bernilai 1, dan
semua parameter pada 11Φ bernilai 0. Misalnya untuk kasus produksi
minyak bulanan di tiga lokasi diperoleh model GSTAR(11) sebagai berikut .
+
−−−
+
=
)()()(
)1()1()1(
00
0
000000000
100010001
)()()(
3
2
1
3
2
1
3231
2321
1312
3
2
1
tetete
tztztz
wwwwww
tztztz
. (5.4.6)
Berdasarkan Teorema 5.4.1 yang diperoleh oleh Borovkova dkk., model ini
termasuk dalam proses yang stasioner.
Hal ini kontradiktif dengan kondisi stasioner pada model VAR(1) berdasarkan
Proposisi 5.4.1, karena pada model (5.4.6) ini diperoleh nilai eigen yang
semuanya bernilai 1 yang berarti tidak memenuhi syarat kondisi stasioner, yaitu
didalam unit lingkaran atau 1|| <λ .
Bab V. Hasil Empiris
114
§ Kasus 2.
Pada saat ada satu atau lebih parameter 0iφ dan 1iφ yang hasil
penjumlahannya bernilai lebih dari 1. Sebagai contoh, pada kasus produksi
minyak bulanan di tiga lokasi yang berada dalam satu group (jarak yang sama),
sehingga digunakan bobot seragam, diperoleh model GSTAR(11) sebagai
berikut
+
−−−
+
=
)()()(
)1()1()1(
05,05,05,005,05,05,00
8,000
06,00004,0
3,00005,00003,0
)()()(
3
2
1
3
2
1
3
2
1
tetete
tztztz
tztztz
.
(5.4.7)
Model ini berdasarkan Teorema 1 merupakan proses yang tidak stasioner,
karena pada lokasi 2 dan 3 didapatkan :
1,1|6,05,0||| 2120 =+=+ φφ dan
1,1|8,03,0||| 3130 =+=+ φφ .
Hasil ini tidak memenuhi kondisi stasioner model GSTAR(11) berdasarkan
Teorema 5.4.1 yang mensyaratkan 1|| 10 ≤+ ii φφ .
Kesimpulan ini juga merupakan kesimpulan yang kontradiktif dengan hasil
kondisi stasioneritas dengan representasi VAR(1), dimana secara matematis
model GSTAR(11) ini dapat pula dituliskan dalam bentuk
+
−−−
=
)()()(
)1()1()1(
3,04,04,03,05,03,02,02,03,0
)()()(
3
2
1
3
2
1
3
2
1
tetete
tztztz
tztztz
. (5.4.8)
Dengan menggunakan operasi matrik, diperoleh nilai-nilai eigen dari matrik
parameter tersebut, yaitu 964,01 =λ , 143,02 =λ dan 007,03 −=λ yang meme-
nuhi kondisi stasioneritas berdasarkan Proposisi 5.4.1. Dengan demikian,
dalam representasi VAR(1), model ini merupakan proses yang stasioner.
Bab V. Hasil Empiris
115
Berdasarkan hasil pada dua contoh kasus di atas dapat dijelaskan bahwa
Teorema 5.4.1 yang dikemukakan oleh Borovkova dkk. (2002) adalah tidak
benar. Kesalahan ini diduga karena pada proses penurunan untuk mendapatkan
Teorema 5.4.1 terjadi kesalahan pada eliminasi bobot-bobot parameter lokasi
atau ijw . Oleh karena itu, pengujian kondisi stasioneritas parameter model
GSTAR(11) secara matematik adalah benar jika menggunakan nilai-nilai eigen
(dari hasil representasi VAR(1)) seperti pada Proposisi 5.4.1. Hasil dari kajian
koreksi teorema tentang stasioneritas model GSTAR(11) ini telah dipublikasikan
dan secara lengkap dapat dilihat pada Suhartono dan Subanar (2007).
5.4.2. Evaluasi Penentuan Bobot Lokasi (Spasial) yang Optimal pada
Model GSTAR
Pemilihan atau penentuan bobot lokasi merupakan salah satu perma-
salahan utama pada pemodelan GSTAR. Beberapa cara penentuan bobot lokasi
yang telah banyak digunakan dalam aplikasi model GSTAR adalah (lihat
Borovkova dkk., 2002; Ruchjana, 2002)
(i). bobot Seragam (Uniform), yaitu iij nw 1= , dengan =in banyaknya lokasi
yang berdekatan dengan lokasi i ,
(ii). bobot Biner (Binary), yaitu 0=ijw atau 1, tergantung pada suatu batasan
tertentu,
(iii). bobot Inverse Jarak, dan
(iv). bobot berdasarkan pada semi-variogram atau kovariogram dari variabel
antar lokasi. Cara ini memungkinkan suatu bobot yang bertanda negatif.
Suhartono dan Subanar (2006b) serta Suhartono dan Atok (2006) telah
melakukan kajian simulasi untuk mengevaluasi kelemahan dari metode penen-
tuan bobot lokasi tersebut, khususnya pada bobot seragam. Hasil kajian
menunjukkan bahwa penentuan bobot lokasi dengan bobot seragam mem-
berikan hasil yang tidak valid pada kasus dimana besar dan tanda dari koefisien
hubungan antar lokasi adalah berbeda nilai dengan tanda sama, dan pada kasus
berbeda nilai dan berbeda tanda. Selanjutnya, Suhartono dan Subanar (2006b)
Bab V. Hasil Empiris
116
memperkenalkan suatu metode penentuan bobot baru yang dapat
menyelesaikan keterbatasan tersebut, yaitu dengan menggunakan hasil
normalisasi korelasi silang antar lokasi pada lag waktu yang bersesuaian.
Secara umum korelasi silang antar dua variabel atau antara lokasi ke-i
dan ke-j pada lag waktu ke-k, )],(),([Kor ktZtZ ji − didefinisikan sebagai (lihat
Box dkk., 1994; Wei, 1990)
,
)()(
ji
ijij
kk
σσ
γρ = K,2 ,1 ,0 ±±=k (5.4.9)
dengan )(kijγ adalah kovarians silang antara kejadian di lokasi ke-i dan ke-j
pada lag waktu ke-k, iσ dan jσ adalah deviasi standar dari kejadian di lokasi
ke-i dan ke-j. Taksiran dari korelasi silang ini pada data sampel adalah
−
−
−−−=
∑∑
∑
==
+=
n
tjj
n
tii
n
ktjjii
ij
ZtZZtZ
ZktZZtZkr
1
2
1
2
1
])([])([
])(][)([)( . (5.4.10)
Bartlett dalam Wei (1990) telah menurunkan varians dan kovarians dari
besaran korelasi silang yang diperoleh dari sampel. Dibawah hipotesis bahwa
dua data deret waktu iZ dan jZ adalah tidak berkorelasi, Bartlett menunjukkan
bahwa
+
−≅ ∑
∞
=1)()(211)]([Varians
sjjiiij ss
knkr ρρ , (5.4.11)
sehingga ketika iZ dan jZ merupakan deret yang white noise diperoleh
kn
krij −≅
1)]([Varians . (5.4.12)
Untuk ukuran sampel yang besar, )( kn − dalam Persamaan (5.4.12) seringkali
digantikan dengan n . Dibawah asumsi distribusi normal, maka nilai-nilai korelasi
silang pada sampel ini dapat diuji apakah sama atau berbeda dengan nol.
Bab V. Hasil Empiris
117
Selanjutnya, metode penentuan bobot lokasi baru yang diperkenalkan
Suhartono dan Subanar (2006b) adalah melalui normalisasi dari besaran-
besaran korelasi silang antar lokasi pada waktu yang bersesuaian. Proses ini
secara umum menghasilkan bobot lokasi untuk model GSTAR(11) seperti berikut
, |)1(|
)1(
∑≠
=
ikik
ijij r
rw dengan ji ≠ , (5.4.13)
dan bobot ini memenuhi 1||1
=∑≠j
ijw
Penentuan bobot lokasi melalui normalisasi dari besaran korelasi silang
ini kemudian telah disempurnakan oleh Suhartono dan Subanar (2006b), yaitu
melalui normalisasi hasil inferensia statistik besaran korelasi silang antar lokasi
pada waktu yang bersesuaian tersebut. Uji hipotesis atau proses inferensia
statistik dilakukan dengan menggunakan taksiran interval, yaitu
± −−= n
tkr kndfij1)( 2;2/α . (5.4.14)
Proses ini secara umum menghasilkan bobot lokasi untuk model GSTAR(11)
seperti pada Persamaan (5.4.13) dengan hanya melibatkan korelasi silang,
)1(ijr , yang signifikan berbeda dengan nol pada proses inferensia statistik, yaitu
, |)1(|
)1(
∑≠
=
ikik
ijij r
rw dengan ji ≠ ,
dan bobot ini juga memenuhi 1||1
=∑≠j
ijw
Bobot-bobot lokasi dengan menggunakan normalisasi dari hasil inferensia
statistik terhadap korelasi silang antar lokasi pada lag waktu yang bersesuaian ini
memungkinkan semua bentuk kemungkinan hubungan antar lokasi. Dengan
demikian, tidak ada lagi batasan yang kaku tentang besarnya bobot yang
terutama tergantung dari jarak antar lokasi. Bobot ini juga memberikan
fleksibilitas pada besar dan tanda hubungan antar lokasi yang bisa berlainan
(positif dan negatif). Hasil-hasil implementasi kajian empiris ini telah dipublikasi-
kan dan secara lengkap dapat dilihat pada Suhartono dan Subanar (2006b).
Bab V. Hasil Empiris
118
5.4.3. Perbandingan Ketepatan Ramalan antara FFNN dan Model-model
Runtun waktu Multivariat
Bagian ini akan menjelaskan hasil-hasil kajian awal berkaitan dengan
perbandingan ketepatan ramalan antara model GSTAR, VAR, FFNN dengan
arsitektur berdasarkan GSTAR (dinotasikan dengan FFNN-GSTAR), dan FFNN
berdasarkan VAR (dinotasikan FFNN-VAR). Perbedaan utama FFNN-GSTAR
dan FFNN-VAR adalah pada arsitektur NN yang digunakan, khususnya pada
banyaknya neuron di lapis output. FFNN-GSTAR terdiri dari satu neuron di lapis
output, sedangkan FFNN-VAR mempunyai banyaknya neuron yang sama
dengan banyaknya series multivariat yang digunakan.
Kajian perbandingan ini dilakukan pada kasus real yaitu data produksi
minyak bulanan di tiga lokasi sumur pengeboran di Jawa Barat yang diperoleh
dari Ruchjana (2002). Dalam hal ini, model GSTAR dan VAR yang digunakan
adalah GSTAR(11) dan VAR(1). Bentuk arsitektur dari FFNN-GSTAR yang
digunakan dapat dilihat pada Gambar 5.7, sedangkan arsitektur FFNN-VAR
ditunjukkan seperti pada Gambar 5.8. Dari Gambar 5.7 dapat dilihat bahwa
hanya ada satu unit neuron di lapis output yang digunakan, yaitu tY yang
menyatakan suatu vektor yang terdiri dari data produksi minyak di tiga lokasi
sumur pengeboran. Secara matematis tY adalah seperti berikut,
=
t
t
t
t
3Y2Y1Y
Yˆˆˆ
ˆ .
Hal ini berbeda dengan Gambar 5.8 yang terdiri dari tiga neuron di lapis output.
Neuron 1, 2, dan 3 secara berurutan menunjukkan produksi minyak di lokasi
sumur pengeboran 1, 2 dan 3.
Data produksi minyak ini terdiri dari 60 pengamatan, yang selanjutnya
dibagi menjadi dua bagian yaitu 50 sebagai data training dan 10 untuk data
testing. Hasil-hasil perbandingan dari keempat model tersebut dapat dilihat pada
Tabel 5.10.
Bab V. Hasil Empiris
119
Lapis Output (Variabel Dependen) Lapis Tersembunyi (q unit neuron) Lapis Input (Lag Variabel Dependen)
Gambar 5.7. Arsitektur FFNN-GSTAR(11) dengan satu lapis tersembunyi, 6 unit input, q unit neuron di lapis tersembunyi, dan satu unit neuron di lapis output.
Keterangan beberapa notasi dari Gambar 5.7 di atas adalah sebagai berikut :
t
=
t
t
t
Y1Y Y2
Y3
)
) )
),
=
t-1*
t-1
Y1Y1 0
0
)
, 2 =
*t-1 t-1
0Y Y2
0
), 3
=
*t-1
t-1
0Y 0
Y3)
,
12 132 3w w + =
t-1 t-1*
t-1
Y YF1 0
0
) )
, 21 232 1 3w w = +
*t-1 t-1 t-1
0F Y Y
0
) ), dan
31 32
31 2w w
= +
*t-1
t-1 t-1
0F 0
Y Y) )
.
tY)
11tF −
*12 tY −
12tF −
),,( 0010 ′= qj θθθ K
),,,( 10 ′= pj γγγγ K
M
*11 tY −
*13 tY −
13tF −
Bab V. Hasil Empiris
120
Lapis Input Lapis Output (Lag Variabel Dependen) (Variabel Dependen)
Lapis Tersembunyi (q unit neuron)
Gambar 5.8. Arsitektur FFNN-VAR(1) dengan satu lapis tersembunyi, 3 unit input, q unit neuron di lapis tersembunyi, dan 3 unit neuron di lapis output.
Tabel 5.10. Hasil perbandingan ketepatan ramalan antara GSTAR, VAR,
FFNN-GSTAR, dan FFNN-VAR pada data produksi minyak
MSE Data Training MSE Data Testing Model Peramalan
Y1 Y2 Y3 Y1 Y2 Y3
1. GSTAR(11) 0,4967 0,6485 0,3097 0,1772 0,2554 0,0917
2. VAR(1) 0,4982 0,6334 0,4017 0,2070 0,2580 0,0972
3. FFNN-GSTAR(11) - 1 neuron - 2 neuron - 3 neuron - 4 neuron - 5 neuron
0,4870 0,3762 0,3328 0,2710 0,1983
0,6510 0,5406 0,4471 0,3606 0,3247
0,2470 0,2261 0,1742 0,1804 0,1381
0,1794 0,2505 0,5052 0,1431 0,2711
0,2398 0,3140 0,3353 0,3481 0,6272
0,0633 0,0421 0,5013 0,0355 0,0790
4. FFNN-VAR(1) - 1 neuron - 2 neuron - 3 neuron - 4 neuron - 5 neuron
0,7104 0,6169 0,4556 0,4852 0,3947
0,9664 0,5964 0,4353 0,2123 0,2210
0,4001 0,2188 0,2081 0,2651 0,1501
0,2782 0,3997 0,1780
0,1399 0,3298
0,7887 0,7973 0,6184 0,2583 0,7312
0,0436 0,0358 0,0463 0,0736 0,0878
2tY)
11tY −
12tY −
13tY −
1tY)
3tY)
),,( 0010 ′= qj θθθ K ),,,( 10 ′= pj γγγγ K
M
Bab V. Hasil Empiris
121
Berdasarkan hasil-hasil pada Tabel 5.10 dapat dijelaskan bahwa secara
umum FFNN-GSTAR(11) dan FFNN-VAR(1) memberikan hasil ramalan produksi
minyak yang lebih baik dibanding model GSTAR(11) dan VAR(1). Hal ini dapat
dilihat pada hasil ramalan FFNN-GSTAR(11) dan FFNN-VAR(1) dengan empat
neuron di lapis tersembunyi. Hasil ini memberikan peluang yang besar untuk
dilakukan kajian lebih lanjut berkaitan dengan FFNN untuk peramalan runtun
waktu multivariat, baik yang dikembangkan dari model GSTAR atau VAR.
- 122 -
BAB VI KESIMPULAN DAN MASALAH TERBUKA
Pada bab ini akan diberikan kesimpulan dari penelitian berdasarkan pada
pembahasan dalam Bab III, IV, dan V. Pada akhirnya, diberikan pula beberapa
masalah terbuka yang berkaitan dengan peramalan runtun waktu dengan meng-
gunakan FFNN, yang mencakup dua kasus utama runtun waktu yaitu kasus yang
univariat dan multivariat.
6.1 Kesimpulan
Bentuk umum dari FFNN dengan satu lapis tersembunyi dan satu unit
neuron di lapis output yang digunakan untuk peramalan runtun waktu univariat
secara matematis adalah
++= ∑∑
==
p
i
ohjki
hji
q
j
hj
oj
ok bbxwfwfy
1)(
1)( ])([ˆ . (6.1.1)
Estimasi parameter (bobot) dari model ini dilakukan dengan menerapkan
algoritma backpropagation, yaitu terdiri dari dua tahap utama. Pertama adalah
penentuan parameter pada lapis output melalui
hkj
n
k
oko
ja
wQ
)(1
)()(
∑=
−=∂
∂δ
w , dan ∑=
−=∂
∂ n
k
okob
Q1
)()(
δw , (6.1.2)
dengan ( )∑ =′−= q
lh
klol
okk
ok awfyy )()()()( ]ˆ[δ . Kedua adalah penentuan parameter
pada lapis tersembunyi, yaitu
)(1
)()(
kin
k
hkjh
jix
wQ
∑=
−=∂
∂δ
w , dan ∑=
−=∂
∂ n
k
hkjh
jbQ
1)(
)(δ
w , (6.1.3)
dengan )]([ )()()(h
kjhj
oj
ok
hkj nfw ′= δδ .
Estimasi parameter yang juga dikenal dengan pembelajaran network
melalui backpropagation dilakukan dengan tujuan menemukan suatu
penyelesaian *w pada permasalahan optimisasi )(minarg wQWw∈ , yaitu
Bab VI. Kesimpulan dan Masalah Terbuka
123
( )2/)),([()(minarg 2* www XfYEQWw
−==∈
, (6.1.4)
dengan *w adalah indeks dari parameter network yang optimal. Dengan
memberikan beberapa persyaratan, suatu estimator backpropagation
)~(~~~1 nnnnnn fYf −′∇+= − ηww , K,2,1=n . (6.1.5)
dengan 0~w adalah sembarang, dapat ditunjukkan bahwa salah satu
*~ Ww →n 0))((: =∇= ww nqE dengan probabilitas 1 atau ∞→nw~ dengan
probabilitas 1.
Melalui beberapa persyaratan, sifat asimtotis estimator telah terbukti
mengikuti distribusi normal multivariat asimtotis, yaitu
)(N)ˆ( ** C0ww ,n dn →− , (6.1.6)
dengan 11* ∗−∗∗−= ABAC , )),(( *2* wA tZlE ∇≡ , )),(),(( *** ′∇∇≡ wwB tt ZlZlE .
Dengan didukung oleh beberapa corollary, proposisi dan teorema, dapat
dikontruksi uji statistik Wald dibawah sSw =∗:0H yang dapat digunakan untuk
inferensia statistik pada estimator-estimator model yaitu
21 )ˆ(ˆ)ˆ( qd
nnnn nW χ→−′−≡ − swSΓswS , (6.1.7)
dengan 'nn SCSΓ ˆˆ ≡ .
Dengan didukung beberapa asumsi dan teorema, suatu uji hipotesis
bertahap melalui R2incremental telah berhasil dikonstruksi. Uji ini melalui tiga tahap
utama, yaitu Model Tereduksi (Reduced Model), Model Lengkap (Full Model),
dan penentuan uji statistik, yaitu
)(
2)(
)()(2
lincrementa
)1(
)(
FF
FR
dfR
dfdfRF
−
−= , (6.1.8)
dengan 2 2 2incremental ( ) ( )F RR R R= − , )(Rdf Rln −= adalah derajat bebas Model
Tereduksi, dan )(Fdf Fln −= adalah derajat bebas Model Lengkap.
Hasil kajian teoritis ini selanjutnya digunakan untuk mengkonstruksi dua
prosedur baru untuk pembentukan model FFNN yang diaplikasikan untuk
Bab VI. Kesimpulan dan Masalah Terbuka
124
peramalan runtun waktu yang merupakan kontribusi utama dari hasil penelitian
disertasi ini. Prosedur pertama mengimpementasikan uji statistik F pada
R2incremental dalam skema forward yang dimulai dengan penentuan banyaknya unit
di lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal.
Prosedur kedua menggunakan kombinasi antara uji R2incremental dalam skema
forward untuk penentuan banyaknya unit di lapis tersembunyi dengan uji Wald
dalam skema backward untuk penentuan variabel input yang optimal. Hasil-hasil
ini dapat dipandang sebagai pengembangan dari prosedur yang diperkenalkan
oleh Kaashoek dan Van Dijk (2002).
Hasil kajian empiris berkaitan dengan aplikasi uji bertahap melalui
inferensia R2incremental dan uji Wald menunjukkan bahwa pemilihan model terbaik
melalui uji bertahap pada R2incremental dan uji Wald memberikan hasil yang sesuai
dengan yang diharapkan. Hal ini memberikan bukti, bahwa statistik uji yang
dikonstruksi bekerja dengan baik. Hasil perbandingan banyaknya running juga
menunjukkan bahwa dua prosedur baru yang diperkenalkan relatif lebih efisien
dibanding prosedur Kaashoek dan Van Dijk, yaitu jumlah running yang lebih
sedikit.
Pada kajian tentang efek pemrosesan awal data, khususnya pada data
runtun waktu yang mengandung tren dan musiman, telah menghasilkan suatu
pendekatan model baru kombinasi antara metode dekomposisi dan FFNN.
Evaluasi perbandingan ketepatan ramalan menunjukkan bahwa kombinasi
metode dekomposisi sebagai pemrosesan awal data dan FFNN memberikan
hasil ramalan dengan ketepatan paling tinggi dibanding model Winter’s, ARIMA,
FFNN dengan cara pemrosesan awal data yang lain. Kajian empiris tentang
perbandingan antara model FFNN dengan model-model runtun waktu univariat
yang klasik menunjukkan bahwa model FFNN dengan cara pemrosesan awal
data yang tepat cenderung memberikan hasil yang lebih baik jika dibandingkan
dengan model-model runtun waktu klasik.
Sebagai tambahan, hasil kajian tentang model GSTAR dikaitkan dengan
aplikasi FFNN untuk peramalan runtun waktu multivariat, memberikan temuan
baru berkaitan dengan model GSTAR, yaitu diperolehnya satu metode untuk
Bab VI. Kesimpulan dan Masalah Terbuka
125
penentuan bobot lokasi yang optimal pada model GSTAR(11). Metode baru ini
dikembangkan dari besaran statistik korelasi silang, dan telah terbukti lebih baik
dibanding bobot-bobot lain yang telah dikembangkan oleh peneliti-peneliti
sebelumnya. Selain itu, hasil kajian teoritis berkaitan dengan stasioneritas
parameter model GSTAR berhasil menunjukkan bahwa ada kesalahan berkaitan
dengan teorema stasioneritas parameter model GSTAR(11) yang dikemukakan
oleh Borovkova dkk. (2002). Pada akhirnya, aplikasi FFNN untuk peramalan
runtun waktu multivariat yang dikembangkan dari model GSTAR dan VAR pada
data produksi minyak, terbukti memberikan hasil ramalan yang lebih baik
dibanding model GSTAR dan VAR.
6.2 Masalah Terbuka
FFNN dalam kerangka pemodelan statistik dapat dipandang sebagai
model nonlinear yang fleksibel sebagai alat analisis data untuk peramalan runtun
waktu yang mempunyai peluang yang besar untuk dikembangkan dan dikaji lebih
lanjut, baik pada kasus univariat dan terlebih lagi pada kasus yang multivariat.
Berdasarkan pembahasan pada penelitian ini diperoleh beberapa permasalahan
terbuka yang perlu untuk dilakukan penelitian lebih lanjut, yaitu :
1. Pengembangan uji nonlinearitas pada kasus runtun waktu multivariat,
termasuk data spasial runtun waktu. Uji ini akan memberikan argumen yang
fundamental terhadap kelayakan pemakaian suatu model nonlinear,
khususnya NN pada kasus runtun waktu multivariat ataupun spasial runtun
waktu.
2. Pengembangan prosedur pembentukan model pada NN dengan meng-
kombinasikan R2incremental dan uji Wald untuk memutus koneksi input ke unit
neuron di lapis tersembunyi ataupun koneksi dari neuron di lapis ter-
sembunyi ke neuron di lapis output. Kajian ini lebih menitikberatkan pada
aspek komputasi dan akan memberikan arah baru tentang arsitektur NN.
3. Pengembangan NN untuk peramalan runtun waktu pada data yang
nonmetrik (skala nominal atau ordinal) dan/atau data metrik yang tidak
Bab VI. Kesimpulan dan Masalah Terbuka
126
kontinu dan tidak berdistribusi Normal. Hal utama yang mendasari
pengembangan ini adalah suatu kenyataan bahwa permasalahan real pada
peramalan runtun waktu biasanya juga melibatkan data-data yang bersifat
kualitatif.
4. Pengembangan model-model hybrid, yaitu kombinasi dari NN dengan
beberapa model atau metode analisis data lainnya, misalnya Wavelet NN
ataupun Fuzzy NN, untuk peramalan runtun waktu univariat dan multivariat.
Hasil kajian tentang efek pemrosesan data awal pada penelitian disertasi ini
merupakan dasar utama pengembangan suatu model hybrid yang
mengkombinasikan NN dengan metode yang lainnya.
127
RINGKASAN
FEEDFORWARD NEURAL NETWORKS UNTUK PEMODELAN RUNTUN WAKTU
oleh
Suhartono
1. PENDAHULUAN
Pemodelan yang digunakan untuk menjelaskan hubungan nonlinear antar
variabel dan beberapa prosedur pengujian untuk mendeteksi adanya keterkaitan
nonlinear telah mengalami perkembangan yang sangat pesat pada beberapa
dekade terakhir ini. Sebagai overview hal ini dapat dilihat antara lain pada tulisan
Granger dan Terasvirta (1993). Perkembangan yang pesat ini juga terjadi dalam
bidang pemodelan statistik, khususnya model-model untuk runtun waktu dan
ekonometrika. Seiring dengan perkembangan komputasi dan meningkatnya
kekuatan komputasi, model nonparametrik yang tidak memerlukan asumsi
bentuk hubungan fungsional antar variabel telah menjadi lebih mudah untuk
diaplikasikan.
Model Neural Networks (NN) merupakan salah satu contoh model nonlinear
yang mempunyai bentuk fungsional yang fleksibel dan mengandung beberapa
parameter yang tidak dapat diinterpretasikan seperti pada model parametrik.
Penggunaan model NN dalam berbagai bidang terapan secara umum didasari
motivasi hasil matematika yang menyatakan bahwa di bawah syarat yang tidak
terlalu ketat, suatu model NN yang relatif sederhana dapat digunakan untuk
pendekatan semua fungsi Borel yang dapat diukur pada sebarang derajat
akurasi; sebagai contoh hal ini dapat dilihat pada Cybenko (1989), Funahashi
(1989), Hornik dkk. (1989, 1990), dan White (1990).
Pada saat ini banyak penelitian dilakukan secara luas dengan motivasi
adanya kemungkinan untuk menggunakan model NN sebagai suatu alat untuk
menyelesaikan berbagai masalah terapan, antara lain peramalan runtun waktu,
Ringkasan 128
pattern recognition, signal processing, dan proses kontrol. Sarle (1994)
menyatakan bahwa ada tiga penggunaan utama dari NN, yaitu sebagai suatu
model dari sistem syaraf biologi dan kecerdasan, sebagai prosesor signal real-
time yang adaptif atau pengontrol yang diimplementasikan dalam hardware untuk
suatu terapan seperti robot, dan sebagai metode analisis data.
Model Feed Forward Neural Networks (FFNN) adalah salah satu bentuk
model NN yang dapat dipandang sebagai suatu kelompok dari model yang
sangat fleksibel yang dapat digunakan untuk berbagai aplikasi. Beberapa
referensi berkaitan dengan konsep dan bentuk dari model FFNN secara umum
dapat ditemukan di Bishop (1995), Ripley (1996) dan Fine (1999). Secara
statistik, model FFNN merupakan suatu bagian dari kelompok pemodelan yaitu
model nonlinear regresi dan model diskriminan. Referensi yang lengkap
berkaitan dengan perbandingan antara beberapa model NN dengan model-
model statistik yang klasik dan modern dapat dilihat pada Cheng dan Titterington
(1994), Kuan dan White (1994), Ripley (1993, 1994), Sarle (1994), dan beberapa
artikel di Cherkassky dkk. (1994).
Dalam penerapannya, FFNN mengandung sejumlah parameter (weight)
yang terbatas. Bagaimana mendapatkan model FFNN yang sesuai, yaitu
bagaimana menentukan kombinasi yang tepat antara banyaknya variabel input
dan banyaknya unit pada lapis tersembunyi (yang berimplikasi pada banyaknya
parameter yang optimal), merupakan topik sentral dalam beberapa literatur NN
yang telah banyak dibahas pada banyak artikel dan banyak buku seperti pada
Bishop (1995), Ripley (1996), Fine (1999), Haykin (1999), atau pada Reed dan
Marks II (1999).
Secara umum ada dua kelompok teknik atau prosedur yang biasanya
digunakan untuk mendapatkan model FFNN terbaik (arsitektur optimal), yaitu
prosedur yang “general-to-specific” atau “top-down” yaitu suatu prosedur yang
dimulai dari model yang besar (komplek) dan kemudian menerapkan suatu
algoritma untuk mereduksi banyaknya parameter (banyaknya unit pada lapis
tersembunyi dan banyaknya variabel input) dengan menggunakan aturan
pemberhentian iterasi tertentu, dan prosedur yang “specific-to-general” atau
Ringkasan 129
“bottom-up” yaitu suatu prosedur yang justru dimulai dari model yang sederhana.
Dalam beberapa literatur NN prosedur pertama lebih dikenal dengan istilah
"pruning" (Reed, 1993; Reed dan Marks II, 1999), sedangkan dalam kerangka
pemodelan statistik dapat dipandang sebagai metode backward. Prosedur kedua
lebih dikenal dengan istilah “constructive learning” dan salah satu yang telah
banyak dikenal adalah cascade correlation (Fahlman dan Lebiere, 1990;
Littmann dan Ritter, 1996; Prechelt, 1997), yang dapat dipandang sebagai suatu
metode forward dalam pemodelan statistik.
Kaashoek dan Van Dijk (2001) memperkenalkan suatu prosedur “pruning”
dengan mengimplementasikan tiga hal, yaitu besaran kontribusi penambahan
(R2incremental), analisis komponen utama, dan analisis secara grafik, untuk
mendapatkan banyaknya unit dalam lapis tersembunyi dan banyaknya variabel
input yang optimal dari suatu model FFNN. Sedangkan Swanson dan White
(1995, 1997a, 1997b) menerapkan kriteria pemilihan model SBIC atau Schwarz
Bayesian Information Criteria pada prosedur “bottom-up” untuk penambahan
banyaknya unit lapis tersembunyi dan banyaknya input sampai diperoleh model
FFNN yang optimal.
Pada perkembangannya, prosedur statistika inferensia juga diterapkan
dalam penentuan model FFNN yang terbaik. Dalam hal ini konsep uji hipotesa,
distribusi parameter dan penggunaan kriteria kesesuaian model diaplikasikan
untuk mendapatkan model yang optimal dari FFNN. Terasvirta dan Lin (1993)
adalah kelompok peneliti pertama yang mengaplikasikan prosedur statistika
inferensia untuk mendapatkan banyaknya unit lapis tersembunyi yang optimal
pada model FFNN dengan satu lapis tersembunyi. Beberapa artikel terakhir
tentang pembentukan model FFNN dengan penggunaan statistika inferensia
dapat dilihat pada Anders dan Korn (1999), dan Medeiros dkk. (2002).
Peramalan data runtun waktu adalah salah satu bidang pemodelan statistik
yang sejak awal telah banyak digunakan untuk aplikasi model NN. Lapedes dan
Farber (1987) merupakan salah satu dari beberapa peneliti pertama yang
menggunakan NN untuk peramalan data runtun waktu. Selanjutnya, banyak
penelitian dilakukan berkaitan dengan prediksi pada data real runtun waktu; hal
Ringkasan 130
ini antara lain dapat dilihat pada de Groot dan Wurtz (1991), Weigend dan
Gershenfeld (1993), Swanson dan White (1995), Weigend (1996), Faraway dan
Chatfield (1998), Lisi dan Schiavo (1999), Motiwalla dan Wahab (2000), Yao dan
Tan (2000), Leung dkk. (2000), serta pada Kaashoek dan Van Dijk (2001, 2002).
Secara umum dari beberapa penelitian yang ada tersebut, fokus utama yang
dibahas adalah bagaimana mendapatkan model NN yang sesuai untuk suatu
data runtun waktu. Isu yang sampai sekarang masih merupakan pertanyaan
terbuka dan banyak peneliti lakukan dalam penerapan model NN untuk
pemodelan runtun waktu adalah dalam rangka menjawab beberapa pertanyaan
berikut :
(1). Bagaimana prosedur identifikasi yang tepat untuk menentukan variabel
input awal sebagai kandidat yang sesuai?
(2). Bagaimana cara menentukan variabel input yang tepat?
(3). Bagaimana cara menentukan banyaknya unit yang tepat pada lapis
tersembunyi?
(4). Apa kriteria (statistik) yang paling tepat untuk mengevaluasi kesesuaian
suatu model NN?
(5). Apa bentuk pemrosesan awal data yang tepat pada NN?
Ada beberapa prosedur pembentukan model NN untuk pemodelan runtun
waktu yang telah diperkenalkan oleh beberapa peneliti terdahulu. Namun,
sampai saat ini belum ada satu prosedur yang diterima sebagai suatu prosedur
standar oleh kalangan peneliti NN. Dengan demikian, salah satu permasalahan
utama dalam pembentukan model NN dalam kerangka pemodelan statistik,
khususnya model runtun waktu adalah masih belum adanya suatu prosedur
pembentukan model yang diterima secara standar untuk mendapatkan model NN
yang terbaik pada suatu data runtun waktu, yaitu mulai tahap identifikasi,
estimasi parameter dan uji hipotesis yang berkaitan dengan signifikansi
parameter, serta tahap cek diagnosa untuk memvalidasi kesesuaian model
melalui suatu kriteria (uji statistik) tertentu.
Untuk itu dalam penelitian ini fokus permasalahan yang akan diselidiki oleh
peneliti adalah dalam rangka mendapatkan suatu prosedur pembentukan model
Ringkasan 131
NN yang pada akhirnya diharapkan dapat diterima sebagai suatu prosedur yang
standar. Beberapa permasalahan utama yang akan diselidiki untuk mendukung
pembentukan prosedur standar tersebut adalah sebagai berikut :
(1). Pengembangan dan pengkajian lanjut tentang kriteria (statistik uji) yang
tepat untuk memvalidasi kesesuaian suatu model FFNN untuk pemodelan
runtun waktu.
(2). Pengkajian dan pengembangan lebih lanjut tentang prosedur pem-
bentukan model FFNN yang optimal (kombinasi yang tepat antara
banyaknya input dan banyaknya unit di lapis tersembunyi) dengan
mengimplementasikan sifat-sifat estimator (weight) dan kriteria statistik
yang akan diperoleh untuk pemodelan runtun waktu.
2. ANALISIS RUNTUN WAKTU
Secara umum, analisis runtun waktu menurut Chatfield (2001) mempunyai
beberapa tujuan, yaitu peramalan, pemodelan dan kontrol. Peramalan berkaitan
dengan problem pembentukan model dan metode yang dapat digunakan untuk
menghasilkan suatu ramalan yang akurat. Pemodelan bertujuan mendapatkan
suatu model statistik yang sesuai dalam merepresentasikan perilaku jangka
panjang suatu data runtun waktu. Perbedaan pemodelan dengan peramalan
adalah peramalan lebih cenderung pada suatu model yang “black-box” untuk
mendapatkan ramalan, sedangkan pada pemodelan cenderung pada model
yang dapat diinterpretasikan untuk menjelaskan apa yang sedang terjadi
berkaitan dengan hubungan antar variabel pada suatu data runtun waktu.
Sedang tujuan untuk kontrol banyak digunakan dalam bidang teknik, khususnya
signal processing.
Pemodelan statistik untuk analisis runtun waktu jika dirunut kebelakang,
diawali oleh Yule (1927) yang memperkenalkan model linear autoregresi (AR)
untuk meramalkan bilangan tahunan sunspot. Sejak itu publikasi berkaitan
dengan analisis runtun waktu berkembang dengan pesat. Sampai tahun 1980,
Ringkasan 132
sebagian besar penelitian terfokus pada model runtun waktu linear, khususnya
kelas model linear Autoregressive Integrated Moving Average (ARIMA).
Brockwell dan Davis (1991) mendefinisikan bahwa suatu proses , tY
,2,1,0 K±±∈t disebut mengikuti proses atau model ARMA(p,q) jika tY
adalah stasioner dan jika untuk setiap t ,
qtqttptptt YYY −−−− +++=−−− εθεθεφφ LL 1111 , (2.1)
dengan ),0(WN~ 2σε t . tY disebut suatu proses ARMA(p,q) dengan mean
µ jika µ−tY adalah suatu proses ARMA(p,q). Persamaan (2.1) dapat ditulis
secara simbolik dalam bentuk yang lebih compact, yaitu
tt BYB εθφ )()( = , (2.2)
dengan φ dan θ adalah polinomial derajat p dan q, yaitu
pp zzz φφφ −−−= L11)( (2.3)
dan q
q zzz θθθ +++= L11)( (2.4)
dan B adalah suatu operator mundur (backward shift operator) yang didefinisikan
dengan
jttj YYB −= , K,2,1,0 ±±=j . (2.5)
Box dan Jenkins pada tahun 1976 mengembangkan suatu prosedur yang
lengkap untuk metodologi model ARIMA yang sampai sekarang digunakan
sebagai prosedur standar dalam pembentukan model runtun waktu linear.
Beberapa literatur yang banyak membahas model ARIMA ini dapat dilihat pada
Cryer (1986), Wei (1990) dan Box dkk. (1994). Selain itu, sifat-sifat yang
berkaitan dengan teori statistik untuk model ARIMA telah banyak dianalisis dan
dikembangkan oleh beberapa peneliti, antara lain Brockwell dan Davis (1991).
Dalam perkembangan analisis runtun waktu, telah banyak diketahui bahwa
pada banyak fenomena yang menarik dan sederhana seringkali merupakan
fenomena yang nonlinear, yaitu hubungan antara kejadian di masa lalu dan saat
Ringkasan 133
ini adalah nonlinear. Dengan demikian, kelompok pemodelan runtun waktu yang
linear tidaklah cukup dan sesuai untuk kasus-kasus tersebut, dan sebagai
konsekuensinya, model-model runtun waktu yang nonlinear telah menjadi fokus
perhatian utama peneliti runtun waktu pada beberapa tahun terakhir ini.
Beberapa bentuk model nonlinear telah dikembangkan dan diaplikasikan pada
beberapa kasus runtun waktu, dan sebagai overview atau diskusi lanjut hal ini
dapat ditemukan antara lain di Tong (1990), Priestley (1991), Lee dkk. (1993),
serta Granger dan Terasvirta (1993).
3. FEEDFORWARD NEURAL NETWORKS
Multi Layer Perceptrons (MLP) yang juga dikenal dengan feedforward
atau backpropagation networks atau FFNN adalah bentuk arsitektur NN yang
secara umum paling banyak digunakan dalam aplikasi di bidang teknik atau
rekayasa. Biasanya, aplikasi NN untuk pemodelan runtun waktu adalah
berdasarkan pada arsitektur MLP atau FFNN.
MLP dapat dipandang sebagai suatu kelas yang fleksibel dari fungsi-
fungsi yang nonlinear. Secara umum, model ini bekerja dengan menerima suatu
vektor dari input-input X dan kemudian menghitung suatu respon atau output
)(XY dengan memproses (propagating) X melalui elemen-elemen proses yang
saling terkait. Elemen-elemen proses tersusun dalam beberapa lapis (layer) dan
data, X , mengalir dari satu lapis ke lapis berikutnya secara berurutan. Dalam
tiap-tiap lapis, input-input ditransformasi kedalam lapis secara nonlinear oleh
elemen-elemen proses dan kemudian diproses maju ke lapis berikutnya.
Akhirnya, nilai-nilai output )(XY , yang dapat berupa nilai-nilai skalar atau vektor,
dihitung pada lapis output.
Gambar 3.1 adalah suatu contoh dari bentuk khusus MLP dengan satu
lapis tersembunyi yang lebih dikenal dengan FFNN dengan satu lapis
tersembunyi. Dalam contoh ini, FFNN terdiri dari tiga input (yaitu 1X , 2X dan
3X ), empat unit neuron di lapis tersembunyi dengan fungsi aktifasi ψ , dan satu
unit output dengan fungsi aktifasi linear.
Ringkasan 134
Gambar 3.1. Arsitektur MLP dengan satu lapis tersembunyi, tiga unit input, empat unit neuron di lapis tersembunyi, dan satu unit output dengan fungsi aktifasi linear pada lapis output.
Dalam arsitektur ini, nilai-nilai respon atau output )(XY dihitung dengan
∑ ∑= =
++=H
j
I
iijijjY
1 100 )()( XX γγψββ (3.1)
dengan ),...,,,...,,( 1010 HIH γγβββ adalah besaran-besaran bobot atau para-
meter pada MLP. Bentuk nonlinear fungsi )(XY terjadi melalui suatu fungsi
yang disebut fungsi aktifasi ψ , yang biasanya fungsi yang halus atau smooth
seperti fungsi logistik sigmoid
1))exp(1()( −−+= ZZψ . (3.2)
Pemilihan bentuk MLP dengan satu lapis tersembunyi dan fungsi linear pada
lapis output (tidak ada fungsi aktifasi nonlinear pada lapis output) ini dimotivasi
dari fakta yang menyatakan bahwa bentuk ini dapat memberikan pendekatan
sebarang yang akurat pada sebarang fungsi dalam berbagai ruang fungsi norm
jika dimensi dari ruang bobot adalah cukup besar (Cybenko, 1989; Funahashi,
1989; Hornik dkk., 1989).
Ringkasan 135
Aplikasi model NN untuk peramalan runtun waktu memerlukan perlakuan
dari suatu proses yang dinamis. MLP dapat mengakomodasi perilaku dinamis
tersebut dengan memasukkan lag (kejadian sebelumnya) dari variabel respon
atau target, itY − , dalam himpunan dari input. Hal ini dapat diperoleh dengan
mengganti ),...,( 1 ′= −− ptt YYX dalam persamaan (3.1). Bentuk ini selanjutnya
dikenal dengan Model Autoregressive Neural Network (ARNN) dan secara grafik
untuk 3 lag sebagai input dapat dilihat seperti Gambar 3.2. Secara umum bentuk
arsitektur dari model ini adalah sama dengan model ARIMA(p,0,0), dimana
bentuk perbedaannya adalah bentuk fungsi yang mentransfer kejadian-kejadian
masa lalu ),...,( 1 ′−− ptt YY ke kejadian masa sekarang tY adalah nonlinear,
sedangkan pada model ARIMA(p,0,0) adalah fungsi linear. Sehingga seringkali
model AR-NN ini disebut juga dengan model autoregresi yang nonlinear
(Faraway dan Chatfield, 1998).
Gambar 3.2. Arsitektur AR-NN dengan satu lapis tersembunyi, tiga lag variabel dependen sebagai input ( 321 ,, −−− ttt YYY ), empat unit neuron di lapis tersembunyi, dan satu unit output ( tY ) dengan fungsi aktifasi linear pada output lapis.
Ringkasan 136
3.1. Algoritma Backpropagation
Ripley (1996) menyatakan bahwa keberadaan suatu pendekatan dari suatu
fungsi adalah tidak ada gunanya jika tidak diketahui cara untuk menemukan
pendekatan tersebut. Hal inilah yang mendorong banyaknya penelitian tentang
neural network selama bertahun-tahun. Ide dasar tentang pendekatan dengan
NN diawali oleh pembelajaran Rumelhart–McClelland (1986) yaitu untuk
melakukan fitting terhadap parameter-parameter fungsi dengan metode least
squares. Misalkan kita mempunyai beberapa pasang sampel input dan target
),( )()( kk yx , dan output dari network adalah ),(ˆ wxy f= . Maka, vektor parameter
w dipilih dengan cara meminimumkan
∑=
−=n
kkk xfyQ
1
2)()( )];([)( ww (3.3)
seperti yang dilakukan dalam regresi nonlinear (Bates dan Watts, 1998; Seber
dan Wild, 1989).
Gradient descent merupakan salah satu dari kelompok metode optimisasi
yang paling tua. Metode ini berdasarkan pada suatu pendekatan linear dari
fungsi kesalahan (error) yaitu
)()()( wwwww QQQ T ′∆+≈∆+ . (3.4)
Bobot-bobot diupdate melalui
0 ),( >′−=∆ ηη ww Q , (3.5)
dengan η adalah suatu koefisien pembelajaran (learning rate).
Suhartono dkk. (2005d) telah menurunkan suatu corollary yang merupakan
modifikasi algoritma backpropagation dengan metode gradient descent dari
Moller (1997). Corollary ini adalah khusus untuk mendapatkan bobot-bobot pada
FFNN yang digunakan untuk peramalan runtun waktu univariat seperti pada
Gambar 3.2.
Ringkasan 137
3.2. Sifat-sifat Asimtotis Estimator FFNN
Sifat-sifat asimtotis dari estimator backpropagation dalam FFNN dengan
satu lapis tersembunyi telah banyak dibahas secara detail oleh White (1989a,
1989b). Pada bagian sebelumnya telah dijelaskan bahwa tujuan utama dari
pembelajaran network melalui backpropagatian adalah menemukan suatu
penyelesaian *w pada suatu permasalahan optimisasi )(minarg wQWw∈ yaitu
( )2/)),([()(minarg 2* www XfYEQWw
−==∈
, (3.6)
dengan *w adalah indeks dari bobot network yang optimal.
Dengan penalti kuadrat error, pembelajaran pada network harus sampai
pada *w , yang menyelesaikan
( )2/)]|(([]2/)),([(min 22 XYEYEXfYEWw
−=−∈
w
))2/)],()|(([ 2wXfXYEE −+ . (3.7)
Menemukan *w merupakan permasalahan yang secara tepat sama dengan
mendapatkan parameter-parameter dari suatu pendekatan least squares yang
optimal untuk )|( XYE , ekspektasi bersyarat dari Y diberikan X .
Secara khusus, jika diberikan pasangan input dan target ),( tt XY dengan
nt ,,2,1 K= , yang diambil secara random dari suatu populasi tertentu, maka nw
adalah estimator least squares yang nonlinear pada permasalahan optimisasi
∑=
−
∈−=
n
tttn
WwXfYnQ
1
21 2/)),(()(minarg ww . (3.8)
Regresi nonlinear merupakan metode yang telah dianalisis secara lengkap
dalam literatur-literatur statistik dan ekonometrika.
White (1989b) telah memberikan suatu pernyataan formal tentang syarat
cukup untuk menjamin konvergensi dari estimator backpropagation nw , seperti
yang dinyatakan dalam teorema berikut ini.
Teorema 3.1. (White, 1989b) Misalkan ),F,( PΩ adalah suatu ruang probabilitas
yang lengkap yang didefinisikan pada suatu barisan dari variabel random yang
Ringkasan 138
IID ,:( vtt ΖZ ℜ→Ω= ),2,1 K=t , ∈v ℕ ,2,1 K≡ . Misalkan ℜ→×ℜ Wl v:
adalah suatu fungsi sedemikian hingga untuk setiap w dalam W , suatu sub-
himpunan kompak dari sℜ , ∈s ℕ, ),( wl ⋅ adalah ukuran- vΒ (dengan vΒ adalah
suatu σ -field Borel dengan himpunan-himpunan terbuka dari vℜ ), dan untuk
setiap z dalam vℜ , ),( ⋅zl adalah kontinyu pada W . Anggap selanjutnya bahwa
ada +ℜ→ℜvd : sedemikian hingga untuk semua w dalam W , )(|),(| zdzl ≤w
dan ∞<))(( tZdE (yaitu, l terdominasi pada W oleh suatu fungsi yang dapat
diintegralkan).
Maka untuk setiap K,2,1=n ada suatu penyelesaian nw untuk per-
masalahan ∑ =−
∈ ≡ nt tnWw lnQ 1
1 ),()(ˆmin wZw dan ,..ˆ * Psan −→ Ww dengan
)()(: *** wwWwW QQ ≤∈≡ untuk semua Ww ∈ , )),(()( wZw tlEQ = .
3.3. Sifat Normalitas Asimtotis Estimator FFNN
Konsep formal yang tepat untuk mempelajari distribusi limit (asimtotis) dari
nw adalah konsep-konsep tentang konvergensi dalam distribusi. Distribusi
asimtotis dari nw tergantung pada sifat dasar dari *W . Secara umum *W
mungkin terdiri dari titik-titik yang terisolasi dan/atau bagian datar yang terisolasi.
Jika konvergensi ke suatu bagian datar terjadi, maka bobot-bobot taksisran nw
mempunyai suatu distribusi asimtotis yang dapat dianalisis dengan
menggunakan teori dari Phillips (1989) tentang model yang teridentifikasi secara
parsial. Distribusi-distribusi ini termasuk dalam keluarga Gaussian gabungan
asimtotis atau “limiting mixed Gaussian” (LMG) seperti yang dikenalkan oleh
Phillips. Ketika *w adalah unik secara lokal, model dikatakan teridentifikasi
secara lokal dan bobot-bobot taksiran nw yang konvergen ke *w mempunyai
distribusi normal multivariat asimtotis.
White (1989b) telah memberikan suatu kondisi yang memastikan bahwa
nw mempunyai distribusi normal multivariat asimtotis, seperti yang dinyatakan
dalam teorema berikut ini.
Ringkasan 139
Teorema 3.2. (White, 1989b) Misalkan ),F,( PΩ , tZ , W dan l adalah seperti
dalam Teorema 3.1, dan anggap bahwa Psan −→ .. ˆ *ww dengan suatu elemen
terisolasi pada *W bagian dalam (interior) untuk W .
Anggap sebagai tambahan bahwa untuk setiap z dalam vℜ , ),( ⋅zl adalah
dapat diturunkan secara kontinyu sampai orde 2 pada ∫ W ; bahwa
∞<∇′∇ )),(),(( ** ww tt ZlZlE ; bahwa setiap elemen dari l2∇ adalah
terdominasi pada W suatu fungsi yang dapat diintegralkan; dan bahwa
)),(( *2* wA tZlE ∇≡ dan )),(),(( *** ′∇∇≡ wwB tt ZlZlE matriks-matriks
nonsingular berukuran )( ss× , dengan ∇ dan 2∇ adalah notasi dari gradien
)1( ×s dan operator-operator Hessian )( ss × terhadap w .
Maka ),()ˆ( ** C0ww Ν→− dnn , dengan 11* ∗−∗∗−= ABAC . Jika
sebagai tambahan, setiap elemen dari ll ′∇∇ adalah terdominasi pada W oleh
suatu fungsi yang dapat diintegralkan, maka Psan −→ ∗ .. ˆ CC , dengan 11 ˆˆˆˆ −−= nnnn ABAC , dan
n
Zlnt nt
n∑ = ∇
= 12 )ˆ,(ˆ w
A , n
ZlZlnt ntnt
n∑ = ′∇∇
= 1 )ˆ,()ˆ,(ˆ wwB .
3.4. Testing Hipotesa untuk Parameter Model Neural Networks
Penggunaan satu tahap Nonlinear Least Squares (NLS) Newton-Raphson
dari estimator backpropagation menghasilkan suatu estimator yang ekuivalen
secara asimtotis dengan NLS. Suatu kenyataan bahwa ∗∗ − CF semidefinit positif
adalah suatu alasan untuk menyatakan bahwa tahapan ini adalah pembelajaran
konsolidasi, karena nw mempunyai presisi asimtotis yang sama atau lebih besar
daripada nw~ . Dengan demikian uji hipotesa berdasarkan nw adalah lebih
bermanfaat dari pada berdasarkan nw~ .
Karena pencapaian presisi yang lebih baik ini, maka uji hipotesis sebaiknya
dilakukan dengan menggunakan nw . Suatu uji tentang relevansi (signifikansi)
dari input yang hipotesisnya dapat dinyatakan dengan 0Sw =∗:0H melawan
0Sw ≠∗:1H , dapat dilakukan berdasarkan pada versi-versi statistik Wald,
Lagrange multiplier, dan Likelihood ratio.
Ringkasan 140
Berikut ini adalah hasil konstruksi teorema yang berkaitan dengan statistik
Wald yang digunakan untuk pengujian hipotesis pada parameter model NN.
Teorema 3.3. Misalkan kondisi-kondisi pada Teorema 3.2 di atas terpenuhi,
yaitu
(i) ),()ˆ(2/1
I0wwC Ν→− ∗−∗ dnn , dengan
'11 ABAC −∗∗−∗∗ ≡ , dan 1−∗C
adalah )1(O .
(ii) Ada suatu matriks semidifinit positif dan simetris nB sedemikian hingga ∗− BBn
ˆ 0→p . Maka ∗− CCnˆ 0→p , dengan 11 ˆˆˆˆ −−= nnnn ABAC ,
n
,Zlnt nt
n∑ = ∇
= 12 )ˆ(ˆ w
A , n
ZlZlnt ntnt
n∑ = ′∇∇
= 1 )ˆ,()ˆ,(ˆ wwB ,
Dan, misalkan kq ≤=)(rank S . Maka dibawah sH =∗Sw:0 ,
(i) ),()ˆ(2/1 I0swSΓ Ν→−− dnn n , dengan =≡ ∗ 'n SSCΓ '
'SABSA 11 −∗∗−∗ .
(ii) Suatu statistik Wald,
21 )ˆ(ˆ)ˆ( qd
nnnn nW χ→−′−≡ − swSΓswS ,
dengan 'nn SCSΓ ˆˆ ≡ .
Dengan demikian, suatu uji tentang relevansi (signifikansi) dari input yang
hipotesisnya dapat dinyatakan dengan 0Sw =∗:0H melawan 0Sw ≠∗:1H ,
dapat dilakukan dengan mengaplikasikan Teorema 3.3 ini. Sebagai contoh,
statistik uji Wald dapat dihitung untuk pengujian hipotesis ini yaitu
nnn nW wSSSCSw ˆ)(ˆˆ 1−∗ ′′′= ,
dengan ∗C seperti yang dijelaskan sebelumnya
4. FFNN UNTUK PERAMALAN RUNTUN WAKTU
Peramalan runtun waktu merupakan salah satu bidang utama dalam
aplikasi FFNN. Dalam kasus ini, FFNN dapat dipandang sebagai suatu model
runtun waktu yang nonlinear. Jika diberikan tΙ adalah suatu himpunan informasi
Ringkasan 141
yang didefinisikan
tΙ 0,;0, ≥>= −− iXjY itjt , nt ,,2,1 K= , (4.1)
yang menyatakan semua variabel lag tY dan suatu vektor dari variabel eksogen
tX , maka proses pemodelan runtun waktu secara umum bertujuan
mendapatkan suatu pendekatan yang baik untuk )( tIf sedemikan hingga
)(]|[ ttt IfΙYE = . (4.2)
Terasvirta dkk. (1994) menjelaskan bahwa ada tiga tahapan strategi
pemodelan yang banyak dilakukan pada kelompok model runtun waktu
nonlinear. Secara ringkas tahapan tersebut adalah :
(i). Uji linearitas tY dengan menggunakan informasi tΙ
Banyak kemungkinan bentuk dari nonlinearitas, dan sampai saat ini tidak
ada satu tes yang mampu melakukan semua kemungkinan nonlinear
tersebut, sehingga beberapa tes mungkin diperlukan.
(ii). Jika linearitas ditolak, gunakan beberapa alternatif model nonlinear
parametrik dan/atau model-model nonparametrik.
Dalam hal ini, hasil uji linearitas juga mungkin memberikan petunjuk
tentang model nonlinear yang sebaiknya digunakan.
(iii). Model-model tersebut selanjutnya diestimasi dalam sampel (in-sample)
dan dibandingkan pada data validasi (out-of-sample).
Sifat-sifat dari model taksiran harus diselidiki dan divalidasi. Jika suatu
model tunggal terbaik yang dibutuhkan, maka model yang memberikan
hasil out-of-sample terbaik yang dipilih, dan kemudian lakukan estimasi
kembali pada semua data yang ada.
Bagian ini terdiri dari hasil-hasil kajian teori dan terapan tentang uji
nonlinearitas pada runtun waktu, dan kajian teori tentang prosedur pembentukan
FFNN untuk peramalan runtun waktu. Secara lengkap hasil kajian tentang uji
nonlinearitas dapat dilihat pada Suhartono dan Subanar (2004), serta Subanar
dan Suhartono (2005, 2006a).
Ringkasan 142
4.1. Inferensia Statistik dari Kontribusi Penambahan R2
Suhartono dkk. (2006a) memperkenalkan suatu prosedur baru yang
berdasarkan pada inferensia statistik dari kontribusi penambahan. Statistik uji ini
dikonstruksi seperti pada model linear yang dikenal dengan uji signifikansi
bertahap. Uji ini melalui tiga tahap utama, yaitu Model Tereduksi (Reduced
Model), Model Lengkap (Full Model), dan penentuan Uji Statistik. Berikut ini
adalah hasil konstruksi teorema berkaitan dengan uji R2incremental.
Teorema 4.2.3. Jika diberikan suatu Model Tereduksi (Reduced Model) yang
secara umum dapat ditulis dalam bentuk
)()( )ˆ,( Rt
Rntt XfY ε+= w , (4.3)
dengan Rl adalah banyaknya parameter yang diestimasi. Dan jika diberikan
suatu Model Lengkap (Full Model) yang lebih kompleks dibanding Model
Tereduksi, misalkan adalah
)()( )ˆ,( Ft
Fntt XfY ε+= w , (4.4)
dengan Fl adalah banyaknya parameter yang diestimasi, dan RF ll > . Maka uji
di bawah 0w =+∗:0H , atau uji terhadap nilai-nilai parameter (bobot) tambahan
dalam model lengkap adalah sama dengan nol, dapat dikonstruksi melalui uji F ,
yaitu
])[],[()(
)()(21
~)/(
)/()(FRF lnvllv
FF
RFFR FlnSSE
llSSESSE−=−=−
−−. (4.5)
Statistik uji F ini dapat pula dinyatakan dalam bentuk
)()(
)()()()(
/)/()(
FF
FRFR
dfSSEdfdfSSESSE
F−−
= , (4.6)
atau
)(
2)(
)()(2
lincrementa
)1(
)(
FF
FR
dfR
dfdfRF
−
−= , (4.7)
dengan 2)(
2)(
2lincrementa RF RRR −= , )(Rdf Rln −= adalah derajat bebas Reduced
Model, dan )(Fdf Fln −= adalah derajat bebas Full Model.
Ringkasan 143
4.2. Algoritma Pembentukan Model FFNN : Implementasi Uji Non-linearitas,
Inferensia Statistik R2incremental dan Uji Wald
Berdasarkan hasil-hasil pada bagian sebelumnya, maka suatu strategi
pembentukan model FFNN dapat dilakukan dengan mengimplementasikan uji
nonlinearitas, inferensia statistik kontribusi penambahan R2incremental, dan uji Wald.
Gambar 4.1 dan 4.2 adalah bagan yang menunjukkan dua prosedur (algoritma)
baru yang diperkenalkan sebagai prosedur pembentukan model FFNN untuk
pemodelan runtun waktu.
Prosedur pertama pada Gambar 4.1 adalah prosedur yang fokus pada
penggunaan inferensia statistik kontribusi penambahan R2incremental dalam skema
forward, yang dimulai dengan penentuan banyaknya unit di lapis tersembunyi
yang optimal dan dilanjutkan dengan pemilihan unit input yang optimal.
Sedangkan prosedur kedua pada Gambar 4.2 merupakan prosedur yang
menggunakan kombinasi inferensia statistik kontribusi penambahan R2incremental
dalam skema forward untuk penentuan banyaknya unit di lapis tersembunyi yang
optimal dengan uji Wald dalam skema backward untuk pemilihan unit input yang
optimal.
5. HASIL EMPIRIS
Ada empat macam kajian empiris utama yang telah dilakukan dalam
penelitian ini. Kajian pertama dilakukan untuk menunjukkan bahwa statistik uji F
untuk inferensia R2incremental dan uji Wald secara empiris dapat bekerja dengan
baik dalam proses penentuan model FFNN terbaik pada suatu data runtun waktu
univariat. Bagian ini dilakukan dengan menggunakan suatu data simulasi untuk
runtun waktu univariat yang nonlinear. Hasil-hasil dari kajian ini secara umum
menunjukkan bahwa dua prosedur baru yang diusulkan dapat bekerja secara
baik dalam penentuan arsitektur FFNN yang terbaik. Secara lengkap hasil kajian
ini dapat dilihat pada Suhartono dkk. (2006a, 2006b), serta Subanar dan
Suhartono (2006b).
Ringkasan 144
Mulai
Aplikasikan uji nonlinearitas untuk deteksi bentuk hubungan
nonlinear pada runtun waktu
Apakah uji nonlinearitas menunjukkan adanya bentuk
hubungan nonlinear ?
Spesifikasikan model FFNN dengan variabel input relatif banyak
dan 1 unit neuron di lapis tersembunyi sebagai tahap awal penentuan banyaknya
unit neuron yang optimal
Apakah penambahan 1 unit neuron di lapis tersembunyi memberikan
R2incremental yang signifikan ?
Spesifikasikan model FFNN dengan banyaknya unit neuron TETAP dari hasil
sebelumnya, dimulai dengan 1 variabel lag input yang mempunyai
nilai R2 terbesar.
Apakah penambahan 1 variabel lag input memberikan
R2incremental yang signifikan ?
Selesai
Gambar 4.1. Prosedur pembentukan model melalui inferensia R2incremental
YA
TIDAK
TIDAK
Aplikasikan model ARIMA
TIDAK
Masukkan 1 tambahan unit
neuron
YA
Masukkan 1 tambahan lag yg signifikan
YA
Ringkasan 145
Mulai
Aplikasikan uji nonlinearitas untuk deteksi bentuk hubungan
nonlinear pada runtun waktu
Apakah uji nonlinearitas menunjukkan adanya bentuk
hubungan nonlinear ?
Spesifikasikan model FFNN dengan variabel input relatif banyak
dan 1 unit neuron di lapis tersembunyi sebagai tahap awal penentuan banyaknya
unit neuron yang optimal
Apakah penambahan 1 unit neuron di lapis tersembunyi memberikan
R2incremental yang signifikan ?
Spesifikasikan model FFNN dengan banyaknya unit neuron TETAP dari hasil sebelumnya, gunakan banyaknya yang
relatif cukup banyak untuk variabel lag input yang ada pada model.
Melalui uji Wald, Apakah terdapat variabel lag input
yang tidak signifikan?
Selesai
Gambar 4.2. Prosedur kombinasi inferensia R2incremental dan uji Wald
YA
TIDAK
TIDAK
Aplikasikan model ARIMA
TIDAK
Masukkan 1 tambahan unit
neuron
YA
Eliminasi lag variabel yg
tdk signifikan.
YA
Ringkasan 146
Kajian empiris yang kedua difokuskan pada perbandingan ketepatan
ramalan antara FFNN dengan model-model runtun waktu klasik. Ada dua kasus
real utama yang digunakan pada kajian ini, yaitu data inflasi bulanan di Indonesia
dan data jumlah penumpang pesawat udara internasional yang dikenal dengan
Airline Data. Secara umum, hasil dari kajian empiris ini menunjukkan bahwa
model yang kompleks tidak selalu memberikan hasil ramalan yang lebih baik
dibanding model yang lebih sederhana. Hasil lengkap dari kajian kedua ini dapat
dilihat pada Suhartono (2005), Suhartono dkk. (2005a, 2005c, 2006c).
Pada kajian ketiga, fokus penelitian dilakukan pada pengenalan metode
baru untuk pemrosesan awal data NN, terutama pada kasus runtun waktu yang
mengandung tren dan musiman. Kajian ini memberikan peluang untuk
pembentukan model hybrid yang merupakan kombinasi dari model-model runtun
waktu dengan FFNN. Sebagai studi kasus digunakan data seperti pada kajian
kedua, yaitu Airline Data. Hasil lengkap dari kajian ini dapat dilihat pada
Suhartono dkk. (2005b), serta Suhartono dan Subanar (2006a).
Pada akhirnya, kajian empiris dilakukan pada aplikasi FFNN untuk
peramalan runtun waktu multivariat. Fokus kajian adalah pada kasus spasial
runtun waktu. Pada bagian ini dilakukan pula evaluasi terhadap model space-
time, yaitu evaluasi terhadap kondisi stasioneritas model GSTAR(11) dan metode
penentuan bobot spasial (lokasi). Selain itu, diberikan pula hasil-hasil
perbandingan ketepatan ramalan antara FFNN dengan model-model runtun
waktu multivariat. Hasil dari kajian ini dapat dilihat pada Suhartono dan Subanar
(2006b, 2007).
6. KESIMPULAN DAN MASALAH TERBUKA
Dengan menggunakan beberapa teorema asimtotis dan konvergensi, dapat
diturunkan sifat asimtotits estimator yang mengikuti distribusi normal multivariat
asimtotis. Sifat asimtotis estimator ini selanjutnya digunakan untuk konstruksi uji
statistik Wald yang dapat diimplementasikan untuk inferensia statistik terhadap
estimator-estimator model FFNN. Suatu uji statistik baru melalui besaran
Ringkasan 147
kontribusi penambahan atau R2incremental telah dapat dikonstruksi. Uji ini
dikonstruksi melalui tiga tahapan utama pemodelan, yaitu model Tereduksi,
model Lengkap, dan penentuan uji statistik F .
Kontribusi utama dari hasil penelitian ini adalah diperolehnya dua prosedur
baru untuk pembentukan model FFNN yang diaplikasikan untuk peramalan
runtun waktu. Prosedur pertama mengimpementasikan uji statistik F pada
R2incremental dalam skema forward yang dimulai dengan penentuan banyaknya unit
di lapis tersembunyi dan dilanjutkan penentuan variabel input yang optimal.
Prosedur kedua menggunakan kombinasi antara uji statistik F pada R2incremental
dalam skema forward untuk penentuan banyaknya unit di lapis tersembunyi
dengan uji Wald dalam skema backward untuk penentuan variabel input yang
optimal.
Hasil kajian empiris menunjukkan bahwa algoritma ini dapat bekerja
dengan baik dalam menentukan arsitektur FFNN terbaik yang diterapkan untuk
peramalan runtun waktu. Hasil-hasil empiris berkaitan dengan perbandingan
ketepatan ramalan antara model FFNN dengan model-model runtun waktu yang
lain menunjukkan bahwa tidak ada jaminan bahwa FFNN selalu memberikan
hasil yang terbaik. Selain itu, kajian empiris tentang efek dari pemrosesan awal
data juga telah dilakukan dan menunjukkan bahwa pemilihan metode
pemrosesan awal data yang tepat dapat secara signifikan meningkatkan
ketepatan ramalan FFNN.
Pada akhirnya, hasil kajian tentang model GSTAR dikaitkan dengan
aplikasi FFNN untuk peramalan runtun waktu multivariat, memberikan temuan
baru berkaitan dengan model GSTAR, yaitu diperolehnya satu metode untuk
penentuan bobot lokasi yang optimal pada model GSTAR(11). Metode baru ini
dikembangkan dari besaran statistik korelasi silang, dan telah terbukti lebih baik
dibanding bobot-bobot lain yang telah dikembangkan oleh peneliti-peneliti
sebelumnya. Selain itu, hasil kajian teoritis berkaitan dengan stasioneritas
parameter model GSTAR berhasil menunjukkan bahwa ada kesalahan berkaitan
dengan teorema stasioneritas parameter model GSTAR(11) yang dikemukakan
oleh Borovkova dkk. (2002). Pada akhirnya, aplikasi FFNN untuk peramalan
Ringkasan 148
runtun waktu multivariat yang dikembangkan dari model GSTAR (Generalized
Space-Time Autoregressive) dan VAR (Vector Autoregressive) pada data
produksi minyak, terbukti memberikan hasil ramalan yang lebih baik dibanding
model GSTAR dan VAR.
Berdasarkan pembahasan pada penelitian ini diperoleh beberapa
permasalahan terbuka yang perlu untuk dilakukan penelitian lebih lanjut, yaitu :
1. Pengembangan uji nonlinearitas pada kasus runtun waktu multivariat,
termasuk data spasial runtun waktu. Uji ini akan memberikan argumen
yang fundamental terhadap kelayakan pemakaian suatu model nonlinear,
khususnya NN pada kasus runtun waktu multivariat ataupun spasial runtun
waktu.
2. Pengembangan prosedur pembentukan model pada NN dengan meng-
kombinasikan R2incremental dan uji Wald untuk memutus koneksi input ke unit
neuron di lapis tersembunyi ataupun koneksi dari neuron di lapis ter-
sembunyi ke neuron di lapis output. Kajian ini lebih menitikberatkan pada
aspek komputasi dan akan memberikan arah baru tentang arsitektur NN.
3. Pengembangan NN untuk peramalan runtun waktu pada data yang
nonmetrik (skala nominal atau ordinal) dan/atau data metrik yang tidak
kontinyu dan tidak berdistribusi Normal. Hal utama yang mendasari
pengembangan ini adalah suatu kenyataan bahwa permasalahan real pada
peramalan runtun waktu biasanya juga melibatkan data-data yang bersifat
kualitatif.
4. Pengembangan model-model hybrid, yaitu kombinasi dari NN dengan
beberapa model atau metode analisis data lainnya, misalnya Wavelet NN
ataupun Fuzzy NN, untuk peramalan runtun waktu univariat dan multivariat.
Hasil kajian tentang efek pemrosesan data awal pada penelitian disertasi ini
merupakan dasar utama pengembangan suatu model hybrid yang
mengkombinasikan NN dengan metode yang lainnya.
149
SUMMARY
FEEDFORWARD NEURAL NETWORKS FOR TIME SERIES MODELING
by
Suhartono
1. INTRODUCTION
During the last few years, modeling to explain nonlinear relationship between variables and some procedures to detect this nonlinear relationship have grown in a spectacular way and received a great deal of attention. An overview and further discussion on the subject can be found in Granger and Terasvirta (1993). This fact also happens in field of statistical modeling, particularly in time series modeling and econometrics. Due to computational advances and increased computational power, nonparametric models that do not make assumptions about the parametric form of the functional relationship between the variables to be modeled have become more easily applicable.
Neural Networks (NN) model is a prominent example of such a flexible functional form. The use of the NN model in applied work is generally motivated by a mathematical result stating that under mild regularity conditions, a relatively simple NN model is capable of approximating any Borel-measureable function to any given degree of accuracy; for example see Cybenko (1989), Funahashi (1989), Hornik, Stinchombe, and White (1989, 1990) or White (1990).
Today’s research is largely motivated by the possibility of using NN model as an instrument to solve a wide variety of application problems such as pattern recognition, signal processing, process control, and time series forecasting. Sarle (1994) stated that NN are used in three main ways, i.e. as models of biological nervous systems and “intelligence”, as real-time adaptive signal processors or controllers implemented in hardware for applications such as robots, and as data analytic methods.
Multilayer perceptron (MLP), also known as feed forward neural networks (FFNN), is probably the most commonly used NN architecture in engineering
Summary 150
application. Typically, applications of NN model for time series modeling and signal processing are based on the FFNN architecture. Some references that contain general concept and form of FFNN model can be found at Bishop (1995), Ripley (1996) and Fine (1999). FFNN model can be seen as nonlinear regression and discriminant models in term of statistical modeling. The relationship between NN and statistical models can be found in Cheng and Titterington (1994), Kuan and White (1994), Ripley (1993, 1994), Sarle (1994), and some articles on Cherkassky et al. (1994).
In the application of FFNN, it contains limited number of parameters (weights). How to find the best FFNN model, that is, how to find an accurate combination between number of input variables and unit nodes in hidden layer (imply the optimal number of parameters), is a central topic on the some NN literatures that discussed on many articles and books, see for example Bishop (1995), Ripley (1996), Fine (1999), Haykin (1999), and Reed and Marks II (1999).
In general, there are two procedures usually used to find the best FFNN model (the optimal architecture), those are “general-to-specific” or “top-down” and “specific-to-general” or “bottom-up” procedures. “Top-down” procedure is started from complex model and then applies an algorithm to reduce number of parameters (number of input variables and unit nodes in hidden layer) by using some stopping criteria, whereas “bottom-up” procedure works from a simple model. The first procedure in some literatures is also known as “pruning” (Reed, 1993; Reed and Marks II, 1999), or “backward” method in statistical modeling. The second procedure is also known as “constructive learning” and one of the most popular is “cascade correlation” (Fahlman and Lebiere, 1990; Littmann and Ritter, 1996; Prechlet, 1997), and it can be seen as “forward” method in statistical modeling.
Kaashoek and Van Dijk (2001) introduced a “pruning” procedure by implementing three kinds of methods to find the best FFNN model; those are incremental contribution (R2
incremental), principal component analysis, and graphical analysis. Whereas, Swanson and White (1995, 1997a, 1997b) applied a criteria of model selection, SBIC or Schwarz Bayesian Information Criteria, on “bottom-up” procedure to increase number of unit nodes in hidden layer and input variables until finding the best FFNN model.
Summary 151
In recent development, procedure of inference statistics was also applied to determine the best FFNN model. In this case, the concept of testing hypothesis, parameter distribution and the use of some criteria for model selection are applied to find the optimal FFNN model. Terasvirta and Lin (1993) were among the first researchers who applied this procedure to find the optimal number of unit nodes in hidden layer on FFNN model with single hidden layer. Some latest articles about FFNN model building by using inference statistics can be seen in Anders and Korn (1999) and Medeiros et al. (2002).
Time series forecasting has been an important application of NN from the very beginning. Lapedes and Farbes (1987) were among the first researchers who used a NN for time series processing. They explored the ability of FFNN to forecast a nonlinear computer generated signal; that is the Mackey-Glass differential equation. Later on, NN have also been used to predict observed real world time series (see, for example, de Groot and Wurtz, 1991; Weigend and Gershenfeld, 1993; Swanson and White, 1995; Weigend, 1996; Faraway and Chatfield, 1998; Lisi and Schiav, 1999; Motiwalla and Wahab, 2000; Yao and Tan, 2000; Leung et al., 2000; Kaashoek and Van Dijk, 2001, 2002; Crone, 2003, 2004; also Fildes and Liao, 2004). In general, the main focus of these researches is how to find the best FFNN model for time series forecasting. Some issues that gained much attention in the NN community until now are:
§ how to identify the appropriate input variables for FFNN model?
§ how to determine the appropriate input variables for FFNN model?
§ how to determine the optimal number of nodes in hidden layer for FFNN model?
§ what is the appropriate criteria for evaluating and selecting the best FFNN model?
§ what is the appropriate method for data preprocessing in FFNN model?
There are some procedures for NN model building that be proposed by many NN researchers. But, there is no procedure that be accepted until now as standard procedure in the NN community. Hence, one of the main problems in NN model building as statistical modeling particularly for time series model is no standard procedure to find the best NN model for time series, i.e. start on
Summary 152
identification step, parameter estimation and testing hypothesis, and check diagnostic for validating model goodness of fit based on certain criterion or statistic test.
This research focuses on the development of NN model building procedure that can be used as a standard procedure. There are many main problems that will be studied further to build a standard procedure, i.e.
(1). Developing of the appropriate test statistic or criterion to validate goodness of fit of FFNN that be applied for time series modeling.
(2). Investigation and developing of the appropriate FFNN model building procedure applied for time series modeling by implementing asymptotic properties of the estimators and statistics criterion.
2. TIME SERIES ANALYSIS
Chatfield (2001) stated that time series analysis in general has several objectives, i.e. forecasting, modeling, and controlling. Forecasting deals with the issue of constructing models and methods that can be used to produce accurate short-term predictions. The aim of modeling is to build a statistical model that adequately represents the long-term behaviour of a time series. These goals are not necessarily identical. While the former frequently leads to a black box model that produces predictions, the objective of the latter is more towards finding the model that has generated the data. Finally, controlling purpose is frequently used in engineering field, particularly signal processing.
Statistical modeling of time series can be traced back to Yule (1927), who initiated the linear autoregressive (AR) model to forecast the annual number of sunspots. Since then a large amount of literature has been published in the field of statistical time series analysis. Until 1980 most research focused on linear time series models, particularly on the class of linear autoregressive integrated moving average (ARIMA) models.
Brockwell and Davis (1991) defined that the process , tY ,2,1,0 K±±∈t is said to be an ARMA(p,q) process if tY is stationary and if fore every t ,
qtqttptptt YYY −−−− +++=−−− εθεθεφφ LL 1111 , (2.1)
Summary 153
where ),0(WN~ 2σε t . We say that tY is an ARMA(p,q) process with mean µ if µ−tY is an ARMA(p,q) process. Equation (2.1) can be written symbolically in the more compact form, i.e.
tt BYB εθφ )()( = , (2.2)
where φ and θ are the pth and qth degree polynomials
pp zzz φφφ −−−= L11)( (2.3)
and q
q zzz θθθ +++= L11)( (2.4)
and B is the backward shift operator defined by
jttj YYB −= , K,2,1,0 ±±=j . (2.5)
Box and Jenkins in 1976 developed a complete fitting procedure based on the ARIMA methodology, which is today a standard for linear time series modeling. ARIMA models have been rigorously analyzed (see Cryer, 1986; Wei, 1990; Box et al., 1994) and a discussion of their statistical properties can be found, e.g., in Brockwell and Davis (1991).
In the developing of time series analysis, it is a well known fact that many interesting and sometimes very simple phenomena are nonlinear in the sense that the relationship between the past and the present is nonlinear. Hence, the class of linear time series models is inadequate in that case and, in consequence, nonlinear time series models have received a great deal of attention during the last few years. Various particular forms of nonlinear models have been developed and applied to several examples. An overview and further discussion on the subject can be found, e.g., in Tong (1990), Priestley (1991), Lee et al. (1993), also Granger and Terasvirta (1993).
3. FEEDFORWARD NEURAL NETWORKS
Multi Layer Perceptrons (MLP), also known as feed forward neural network (FFNN), is the most commonly used NN architecture in engineering applications. Naturally, applications of NN for time series modeling are based on the MLP or FFNN architecture.
Summary 154
MLP can be seen as a flexible class of nonlinear functions. In general, this model work by receiving a vector of inputs X and compute a response or output
)(XY by propagating X through the interconnected processing elements. The processing elements are arranged in layers and the data, X , flows from each layer to the successive one. Within each layer, the inputs to the layer are nonlinearly transformed by the processing elements and propagated to the next layer. Finally, at the output layer )(XY , which can be scalar or vector valued, is computed.
Figure 3.1 is an example of typical MLP with one hidden layer that more well known as FFNN with single hidden layer. In this example, FFNN contains three input units, i.e. 1X , 2X , 3X , four hidden units with activation function ψ , and one output unit with linear activation function.
Figure 3.1. MLP architecture of a single hidden layer with three input units, four hidden units, and one output unit.
In this architecture, the response value )(XY is computed as
∑ ∑= =
++=H
j
I
iijijjY
1 100 )()( XX γγψββ (3.1)
Summary 155
where ),...,,,...,,( 1010 HIH γγβββ are the weights or parameters of the MLP. The nonlinearity enters into the function )(XY through the so called activation function ψ , usually a “smooth” threshold function such as the logistic sigmoid
1))exp(1()( −−+= ZZψ . (3.2)
The motivation to consider this type of MLP, i.e. with one hidden layer and no activation function at the output, stems from the fact that it can provide arbitrarily accurate approximations to arbitrary functions in a variety of normed function spaces if the dimension of the weight space is sufficiently large (Cybenko, 1989; Funahashi, 1989; Hornik et al., 1989).
Figure 3.2. AR-NN architecture that contains single hidden layer, three lagged dependent variables as inputs ( 321 ,, −−− ttt YYY ), four units in hidden layer, and one output unit ( tY ), with linear activation function on the output layer.
The application of NN for time series forecasting requires explicit treatment of the dynamics. MLP can accommodate the dynamics by including lagged (past) target variables, itY − , in the set of inputs. This can be achieved by setting
),...,( 1 ′= −− ptt YYX in equation (3.1). The resulting MLP output is known as Autoregressive Neural Network (ARNN) model and for 3 lags are graphically
Summary 156
illustrated in Figure 3.2. In general, architecture of this model is the same with ARIMA(p,0,0) model, where the difference is about function that transfer the past
),...,( 1 ′−− ptt YY to the present tY that is a nonlinear form. This AR-NN model is frequently said to a nonlinear autoregressive model (Faraway dan Chatfield, 1998).
3.1. Backpropagation Algorithm
Ripley (1996) stated that the existence of the function approximation was not useful if there was not known the way to find this function. This condition affected many researches about NN for many years. The main idea of the approximation by using NN is started by Rumelhart-McClelland (1986) learning for fitting parameters by employing least squares method. The training of the NN involves adjusting the weights of the network such that the output generated by the network for the given input ( )kx is as “close” to ),(ˆ wxy f= as possible. Formally, this can be formulated as the optimization problem by finding weights,
( , )ij jw γ β= , to minimize
∑=
−=n
kkk xfyQ
1
2)()( )];([)( ww (3.3)
as done in nonlinear regression (Bates dan Watts, 1998; Seber dan Wild, 1989).
Gradient descent is known as one of the oldest optimization methods. This method is based on a linear approximation of the error function given by
)()()( wwwww QQQ T ′∆+≈∆+ . (3.4)
The weights update is
0 ),( >′−=∆ ηη ww Q , (3.5)
where η is learning rate. Suhartono et al. (2005d) derived a corollary about back-propagation algorithm to find the optimal weights of FFNN for time series forecasting as illustrated in Figure 3.2.
3.2. Asymptotic Properties of FFNN Estimator
The large-sample properties of learning backpropagation in single hidden layer feedforward networks have been studied further by White (1989a, 1989b).
Summary 157
The aim of learning networks by using backpropagation is to find the solution *w on the optimization problem )(minarg wQWw∈ , i.e.
( )2/)),([()(minarg 2* www XfYEQWw
−==∈
, (3.6)
where *w is index of an optimal networks.
With squared error penalty, learning must arrive at *w , which solve
( )2/)]|(([]2/)),([(min 22 XYEYEXfYEWw
−=−∈
w
))2/)],()|(([ 2wXfXYEE −+ . (3.7)
Finding *w is precisely the problem of finding the parameters of an optimal least squares approximation to )|( XYE , the conditional expectation of Y given X .
Specifically, given target/input pairs ),( tt XY with nt ,,2,1 K= , randomly drawn from the operating environment, then nw is the nonlinear least squares estimator, i.e.
∑=
−
∈−=
n
tttn
WwXfYnQ
1
21 2/)),(()(minarg ww . (3.8)
Nonlinear regression is an established method that has been completely analyzed in statistics and econometrics literatures.
White (1989b) provided a formal statement of condition sufficient to guarantee convergence of nw , as stated in the following theorem.
Theorem 3.1. (White, 1989b). Let ),F,( PΩ be a complete probability space on
which is defined the sequence of independent identically distributed random
variables ,:( vtt ΖZ ℜ→Ω= ),2,1 K=t , ∈v ℕ ,2,1 K≡ . Let ℜ→×ℜ Wl v:
be a function such that for each w in W , a compact subset of sℜ , ∈s ℕ, ),( wl ⋅ is measurable- vΒ (where vΒ is the Borel σ -field generated by the open sets of
vℜ ), and for each z in vℜ , ),( ⋅zl is continuous on W . Suppose further that there exists +ℜ→ℜvd : such that for all w in W , )(|),(| zdzl ≤w and
∞<))(( tZdE (i.e., l is dominated on W by an integrable function).
Then for each K,2,1=n there exists a solution nw to the problem
∑ =−
∈ ≡ nt tnWw lnQ 1
1 ),()(ˆmin wZw and ,..ˆ * Psan −→ Ww where ** wW ≡ )()(: * wwW QQ ≤∈ for all Ww ∈ , )),(()( wZw tlEQ = .
Summary 158
3.3. Asymptotic Normality of FFNN Estimator
The appropriate formal concept for studying the limiting distribution of nw is that of convergence in distribution. Asymptotic distribution of nw depends on the nature of *W . In general *W may consist of isolated points and/or isolated ”flat”. If convergence to a flat occurs, then the estimated weights nw have a limiting distribution that can be analyzed using the theory of Phillips (1989) for “partially identified” models. These distributions belong to the “limiting mixed Gaussian” (LMG) family introduced by Phillips. When *w is locally unique, the model is said to be “locally identified” and estimated weights nw converging to *w have a limiting multivariate normal distribution.
The condition ensuring that nw is the multivariate normal distribution have been studied further by White (1989b). The following theorem is one of the results of White’s works.
Theorem 3.2. (White, 1989b) Let ),F,( PΩ , tZ , W and l be as in Theorem 3.1, and suppose that Psan −→ .. ˆ *ww where *w is an isolated element of *W
interior to W .
Suppose in addition that for each z in vℜ , is continuously differentiable of
order 2 on ∫ W ; that ∞<∇′∇ )),(),(( ** ww tt ZlZlE ; that each element of l2∇ is dominated on W by an integrable function; and that )),(( *2* wA tZlE ∇≡ and
)),(),(( *** ′∇∇≡ wwB tt ZlZlE are nonsingular )( ss × matrices, where ∇ and 2∇ denote the )1( ×s gradient and )( ss × Hessian operators with respect to w .
Then ),()ˆ( ** C0ww Ν→− dnn , where 11* ∗−∗∗−= ABAC . If in addition
each element of ll ′∇∇ is dominated on W by an integrable function, then Psan −→ ∗ .. ˆ CC , where 11 ˆˆˆˆ −−= nnnn ABAC , and
n
Zlnt nt
n∑ = ∇
= 12 )ˆ,(ˆ w
A , n
ZlZlnt ntnt
n∑ = ′∇∇
= 1 )ˆ,()ˆ,(ˆ wwB .
3.4. Hypothesis Testing by Using Wald Test
White (1989b) stated that taking one Nonlinear Least Squares (NLS) Newton-Raphson step from the backpropagation estimator asymptotically
Summary 159
equivalent to NLS. Thus, tests of hypotheses bases on nw can be conducted for selecting the optimal architecture of FFNN.
The Wald statistic allows the simplest analysis, although it may or may not the easiest statistic to compute in a given situation. The motivation for the Wald statistic is that when the null hypothesis is correct 0Sw =∗:0H should be close to 0Sw ≠∗:1H , so a value of swS −nˆ far from zero is evidence against the null hypothesis.
The theorem about Wald statistic that be used for hypothesis testing of parameters in NN model is constructed as the following results.
Theorem 3.3. Let the conditions of Theorem 3.2 2 hold, i.e.
(i) ),()ˆ(2/1
I0wwC Ν→− ∗−∗ dnn , where
'11 ABAC −∗∗−∗∗ ≡ , and 1−∗C is
)1(O .
(ii) there exists a matrix nB positive semidefinite and symmetric such that ∗− BBn
ˆ 0→p . Then ∗− CCnˆ 0→p , where 11 ˆˆˆˆ −−= nnnn ABAC ,
n
,Zlnt nt
n∑ = ∇
= 12 )ˆ(ˆ w
A , n
ZlZlnt ntnt
n∑ = ′∇∇
= 1 )ˆ,()ˆ,(ˆ wwB ,
And, let kq ≤=)(rank S . Then under sH =∗Sw:0 ,
(i) ),()ˆ(2/1 I0swSΓ Ν→−− dnn n , where =≡ ∗ 'n SSCΓ '
'SABSA 11 −∗∗−∗ .
(ii) The Wald statistic,
21 )ˆ(ˆ)ˆ( qd
nnnn nW χ→−′−≡ − swSΓswS ,
where 'nn SCSΓ ˆˆ ≡ .
Thus, a test about the relevance (significance) of input with null hypothesis 0Sw =∗:0H again 0Sw ≠∗:1H could be done by applying Theorem 3.3. As an
example, Wald test for this hypothesis testing can be calculated as
nnn nW wSSSCSw ˆ)(ˆˆ 1−∗ ′′′= ,
where ∗C as stated at the previous section.
Summary 160
4. FFNN FOR TIME SERIES FORECASTING
Time series forecasting is one of the main fields for FFNN application. In this situation, FFNN can be seen as a nonlinear time series model. Let tΙ be the information set
tΙ 0,;0, ≥>= −− iXjY itjt , nt ,,2,1 K= , (4.1)
and denote all of the lags variables tY and a vector of exogenous variables tX . The modeling process will then attempt to find a satisfactory approximation for
)( tIf such that
)(]|[ ttt IfΙYE = . (4.2)
Terasvirta et al. (1994) proposed three steps of modeling strategies that be
used for nonlinear time series model. The proposed strategy is as follows:
(i). Test tY for linearity, using the information tΙ .
(ii). If linearity is rejected, consider a small number of alternative parametric models and/or nonparametric models.
(iii). These models should be estimated in-sample and compared out-of-sample.
The strategy is by no means guaranteed to be successful. For example, if the nonlinearity is associated with a specific feature of the data, but if this feature does not occur in the post-sample evaluation period, then the nonlinear model may not perform any better than a linear model.
This section contains the results of theoretical and empirical study of nonlinearity test for time series, and theoretical study about procedure for FFNN model building applied to time series. The result about nonlinearity test can be completely found in Suhartono and Subanar (2004), also Subanar and Suhartono (2005, 2006a).
4.1. Statistically Inference of R2 Incremental
Suhartono et al. (2006a) used statistical inference of R2 incremental contribution on the forward procedure to determine the best architecture of FFNN. This approach involves three basic steps, which can be described in the following theorem.
Summary 161
Theorem 4.1. Let the Reduced Model is defined as
)()( )ˆ,( Rt
Rntt XfY ε+= w , (4.3)
where Rl is the number of parameters to be estimated. And, let the Full Model
that is more complex than Reduced Model is defined as
)()( )ˆ,( Ft
Fntt XfY ε+= w , (4.4)
where Fl is the number of parameters in the Full Model, RF ll > . Then, under or
testing for and additional parameters in the Full Model equal to zero, the F statistic can be constructed, i.e.
])[],[()(
)()(21
~)/(
)/()(FRF lnvllv
FF
RFFR FlnSSE
llSSESSE−=−=−
−−. (4.5)
Statistik uji F ini dapat pula dinyatakan dalam bentuk
)()(
)()()()(
/)/()(
FF
FRFR
dfSSEdfdfSSESSE
F−−
= , (4.6)
or
)(
2)(
)()(2
lincrementa
)1(
)(
FF
FR
dfR
dfdfRF
−
−= , (4.7)
where 2)(
2)(
2lincrementa RF RRR −= , )(Rdf Rln −= is degree of freedom at Reduced
Model, and )(Fdf Fln −= is degree of freedom at Full Model.
4.2. Algorithm for FFNN Model Building: Implementation of Nonlinearity
test, Statistical Inference of R2incremental and Wald test
Based on the Wald test and statistically inference of R2incremental, we
proposed two new procedures for FFNN model building that applied for time series forecasting. In the first step, nonlinearity test is employed to validate whether a nonlinear time series model must be used for analyzing the time series data.
These two algorithms are started with the same approach, i.e. forward scheme by using inference of R2
incremental for determining the optimal number of hidden nodes. Then, the first procedure continue with the same forward scheme for selecting the optimal input units, and illustrated as Figure 4.1. Whereas, the
Summary 162
second procedure continue to the backward scheme by implementing Wald test for selecting the optimal input units. This combination between inference of R2
incremental and Wald test is illustrated in Figure 4.2.
START
Apply nonlinearity test for detecting nonlinear relationship in time series.
Does nonlinearity test show that there is a nonlinear
relationship?
Specify FFNN model with many (relative) inputs and 1 neuron unit in the hidden layer as
preliminary step for determining the optimal number of hidden nodes.
Does the additional 1 node in the hidden layer yield the significance
of R2incremental ?
Specify FFNN model with FIXED number of hidden nodes as result of the previous step, start with lag inputs that has the largest R2.
Does the additional 1 lag Input yield the significance of
R2incremental ?
END
Figure 4.1. The first proposed procedure of FFNN model building for time series forecasting
YES
NO
NO
Apply ARIMA model.
NO
Add 1 node in the hidden layer.
YES
Add 1 additional lag input.
YES
Summary 163
START
Apply nonlinearity test for detecting nonlinear relationship in time series.
Does nonlinearity test show that there is a nonlinear
relationship?
Specify FFNN model with many (relative) inputs and 1 neuron unit in the hidden layer as
preliminary step for determining the optimal number of hidden nodes.
Does the additional 1 node in the hidden layer yield the significance
of R2incremental ?
Specify FFNN model with FIXED number of hidden nodes as result of the previous step, use many (relative) lag inputs in the FFNN.
By using Wald test, are there the not significance lag
inputs?
END
Figure 4.2. The second proposed procedure of FFNN model building
for time series forecasting
YES
NO
NO
Apply ARIMA model.
NO
Add 1 node in the hidden layer.
YES
Eliminate the not significance lag.
YES
Summary 164
5. EMPIRICAL RESULTS
In this research, there are four main empirical studies that have been completed. The first empirical study is used to show that F test for validating the significance of R2
incremental, and Wald test work properly for FFNN model building that be applied for time series univariate. This part is done by using simulation data of a nonlinear time series. The results of this studies generally show that two new proposed procedures work properly for selecting the best FFNN architecture. The complete results of this studies have been published and can be seen in Suhartono et al. (2006a, 2006b), also in Subanar and Suhartono (2006b).
The second empirical study focuses on the forecast accuracy comparison between FFNN and classical time series models. There are two main cases that used in this study, i.e. monthly Indonesian inflation and data about the number of international airline passenger known as Airline Data. In general, the results show that complex model does not always yield better forecast than simple models. The results of this study also have been published and can be seen completely in Suhartono (2005), and Suhartono et al. (2005a, 2005c, 2006c).
In the third part, research focuses to study a new data preprocessing method for NN, particularly at time series containing trend and seasonal pattern. This study give an opportunity to develop new hybrid model as the result of combination between time series models and FFNN. Airline data is used as a case study. The results of the third empirical study can be seen completely in Suhartono et al. (2005b), also in Suhartono and Subanar (2006a).
Finally, the application of FFNN for multivariate time series forecasting is done in the fourth empirical study. This part focuses on the spatial time series case. Additionally, evaluation about stationary condition of GSTAR(11) model and determination method of spatial weights are also done. The results of this empirical study can be seen in Suhartono in Subanar (2006b, 2007).
6. CONCLUSION AND OPEN PROBLEM
By using asymptotic and convergence theorems, asymptotic properties of FFNN estimators that follow multivariate normal distribution can be derived.
Summary 165
Then, these asymptotic properties are used to construct Wald test implemented for doing statistical inference of FFNN estimator. The new statistic test by using contribution incremental or R2
incremental has been constructed. This test contains three main steps of modeling, i.e. Reduced model, Full model, and determination of F test statistic.
Two new procedures for FFNN model building applied for time series forecasting are the main contribution of this research. The first procedure implements F test for R2
incremental inference in forward scheme that start from determination of the number of neurons in hidden layer and then selection of the optimal inputs. The second procedure uses a combination between F test for R2
incremental inference in forward scheme for determining the number of neurons in hidden layer and Wald test in backward scheme for selecting the optimal inputs.
The empirical results show that two procedures can work properly for determining the optimal FFNN architecture that be applied for time series forecasting. The comparison results between FFNN and other time series models show that FFNN does not always yield the best forecast. Additionally, the empirical study about the effect of data preprocessing also have been done and the result shows that determination of an optimal data preprocessing can increase significantly the forecast accuracy of FFNN. Finally, the comparison study between FFNN and other time series models on the multivariate case has been also conducted. The comparison result by using the oil production data shows that FFNN yields better forecast than GSTAR (Generalized Space-Time Autoregressive) and VAR (Vector Autoregressive) models.
Based on the results at the previous section, there are some open problems that need further research, i.e.
1. Developing of nonlinearity test for multivariate time series, including spatial time series. This test will give a fundamental argument about the use of nonlinear model, particularly FFNN for multivariate or spatial time series.
2. Developing of FFNN model building procedure by using a combination between R2
incremental and Wald test for pruning the connection from inputs to hidden nodes, also from hidden nodes to output units. The further research focuses on the computational aspect and will give a new direction about the FFNN architecture.
Summary 166
3. Developing of FFNN for time series forecasting on nonmetric data (nominal or ordinal scale) and/or metric data that are not continuous and not normally distributed. It’s caused many real problems in time series analysis are also deal with qualitative data.
4. Developing of hybrid models for time series forecasting, i.e. a combination between FFNN and other models, such as Wavelet NN or Fuzzy NN. The empirical results about the effect of data preprocessing inspire to develop hybrid model that combine NN and other models.
- 167 -
DAFTAR PUSTAKA
Anders, U. and Korn, O. (1999). Model selection in neural network. Neural Networks, 12, 309-323.
Bates, D.M. and Watts, D.G. (1988). Nonlinear Regression Analysis and Its Applications. Wiley, New York.
Baxt, W.G. (1991). Use of an artificial neural network for the diagnosis of myocardial infarction. Annals of Internal Medicine, 115, 843-848.
Blake, A.P. and Kapetanios, G. (2003). Pure Significance Tests of The Unit Root Hypothesis Against Nonlinear alternatives. Journal of Time Series Analysis,
Vol. 24, No. 3, 253-267.
Billingsley, P. (1979). Probability and Measure, 2nd edition. Wiley-Interscience, New York.
Bishop, C.M. (1995). Neural Network for Pattern Recognition. Oxford: Clarendon Press.
Borovkova, S.A., Lopuhaa, H.P. and Ruchjana, B.N. (2002). Generalized STAR model with experimental weights. In M Stasinopoulos & G Touloumi (Eds.), Proceeding of the 17th International Workshop on Statistical Modeling, Chania-Greece, pp. 139-147.
Box, G.E.P., Jenkins, G.M. and Reinsel, G.C. (1994). Time Series Analysis, Forecasting and Control, 3rd edition. Englewood Cliffs: Prentice Hall.
Brockwell, P.J. and Davis, R.A. (1991). Time Series: Theory and Methods, 2nd edition. New York: Springer Verlag.
Broomhead, D.S. and Lowe, D. (1988). Multivariable functional interpolation and adaptive network. Complex Systems, 2, 321-355.
Chatfield, C. (2001). Time Series Forecasting. Chapman & Hall, London.
Cheng, B. and Titterington, D.M. (1994). Neural Networks: A Review from a Statistical Perspective. Statistical Science, 9, 2-54.
Daftar Pustaka
168
Cherkassky, V., Friedman, J.H. and Wechsler, H. (1994). From Statistics to Neural Networks: Theory and Pattern Recognition Applications. Berlin: Springer-Verlag.
Connor, J.T., Atlas, L.E. and Martin, D.R. (1992). Recurrent networks and NARMA modeling. In Moody, J.E., Hanson, S.J., and Lippmann, R.P. (eds.), Advances in Neural Information Processing Systems, Vol. 4, pp. 301-308. Morgan Kaufmann Publishers, Inc.
Connor, J.T., Martin, D.R., and Atlas, L.E. (1994). Recurrent networks and robust time series prediction. IEEE Transactions on Neural Networks, 5, 240-254.
Cryer, J.D. (1986). Time Series Analysis. Boston: PWS-KENT Publishing Company.
Cybenko, G. (1989). Approximation by superpositions of a sigmoidal function. Mathematics of Control, Signals and Systems, 2, 304-314.
Elman, J.L. (1990). Finding structure in time. Cognitive Science, 14, 179-211.
Fahlman, S.E. and Lebiere, C. (1990). The Cascade-Correlation Learning Architecture. In Touretzky, D.S. (ed.), Advances in Neural Information
Processing Systems 2, Los Altos, CA: Morgan Kaufmann Publishers, pp. 524-532
Faraway, J. and Chatfield, C. (1998). Time series forecasting with neural network: a comparative study using the airline data. Applied Statistics, 47, 231-250.
Fine, T.L. (1999). Feedforward Neural Network Methodology. Springer, New York.
Funahashi, K. (1989). On the approximate realization of continuous mappings by neural networks. Neural Networks, 2, 183-192.
Granger, C.W.J. and Terasvirta, T. (1993). Modeling Nonlinear Economic Relationships. Oxford: Oxford University Press.
de Groot, C. and Wurtz, D. (1991). Analysis of univariate time series with connectionist nets: A case study of two classical examples. Neurocomputing. 3, 177-192.
Daftar Pustaka
169
Hamilton, J.D. (1994). Time Series Analysis. New Jersey: Princeton University Press.
Harvey, A.C. (1990). Econometrics analysis of time series. 2nd edition. Cambridge, MA: MIT Press.
Haykin, H. (1999). Neural Networks: A Comprehensive Foundation, 2nd edition. Prentice-Hall, Oxford.
Hornik, K., Stinchombe, M. and White, H. (1989). Multilayer feedforward networks are universal approximators. Neural Networks, 2, 359-366.
Hornik, K., Stichcombe, M. and White, H. (1990). Universal approximation of an unknown mapping and its derivatives using multilayer feedforward networks. Neural Networks, 3, pp. 551-560.
Jordan, M. (1986). Serial Order: A Parallel Distributed Processing Approach. ICS Report 8604, Institute for Cognitive Science, University of California, San Diego, California, USA.
Kaashoek, J.F. and Van Dijk, H.K., (2001). Neural Networks as Econometric Tool. Report EI 2001–05, Econometric Institute Erasmus University Rotterdam.
Kaashoek, J.F., and Van Dijk, H.K. (2002). Neural Network Pruning Applied to Real Exchange Rate Analysis. Journal of Forecasting, 21, pp. 559-577.
Kippenhan, J.S., Barker, W.W., Pascal,S., Nagel, J. and Duara, R. (1992). Evaluation of a neural network classifier for PET scans of normal and Alzheimer disease subjects. Journal of Nuclear Medicine, 33, 1459-1467.
Kuan, C.M. and White, H. (1994). Artificial Neural Networks: An econometric perspective. Econometric Reviews, 13, 1-91.
Lapedes, A. and Farber, R. (1987). Nonlinear Signal Processing Using Neural
Networks: Prediction and System Modeling. Technical Report LAUR-87-2662, Los Alamos National Laboratory, Los Alamos, NM.
Lee, T.H., White, H. and Granger, C.W.J. (1993). Testing for Neglected Nonlinearity in Time Series Models: A comparison of Neural Network methods and alternative test. Journal of Econometrics, 56, pp. 269-290.
Daftar Pustaka
170
Leung, M.T., Chen, A.S. and Daouk, H. (2000). Forecasting exchange rates using general regression neural networks. Computers and Operations Research, 27, 1093-1110.
Leung, C.S. and Chan, L.W. (2003). Dual extended Kalman filtering in recurrent neural network. Neural Networks, 16, 223-239.
Lisi, F. and Schiavo, R.A. (1999). A comparison between neural network and chaotic models for exchange rate prediction. Computational Statistics & Data Analysis, 30, 87-102.
Littmann, E. and Ritter, H. (1996). Learning and generalization in cascade network architectures, Neural Computation, 8, 1521-1539.
Luukkonen, R., Saikkonen, P. and Terasvirta, T. (1988). Testing linearity against smooth transition autoregressive models. Biometrika, 75, 491-499.
McCullogh, W.S. and Pitts, W. (1943). A logical calculus of the ideas immanent in nervous activity. Bulletin of Mathematical Biophysics, Vol. 5, pp. 115-133.
Medeiros, M.C., Terasvirta, T. and Rech, G. (2002). Building Neural Network for Time Series: A Statistical Approach. SSE/EFI Working Paper Series in Economics and Finance No. 508.
Mittelhammer, R.C. (1996). Mathematical Statistics for Economics and Business. New York: Springer.
Moller, M. (1997). Efficient Training of Feed-Forward Neural Networks. Ph.D. Thesis, Computer Science Department, Aarhus University.
Moody, J. and Darken, C. (1989). Fast learning in networks of locally tuned processing units. Neural Computation, 1 (2), 281-294.
Motiwalla, L. and Wahab, M. (2000). Predictable variation and profitable trading of US equities: a trading simulation using neural networks. Computers &
Operations Research, 27, 1111-1129.
Pazos, A., Maojo, V., Martin, F. and Ezquerra, N. (1992). A neural network approach to assess myocardial infarction. In: Lun et al. (eds.), Medinfo: 92, 659-663: Amsterdam, Elsevier.
Pfeifer, P.E. and Deutsch, S.J. (1980a). A Three Stage Iterative Procedure for Space-Time Modeling. Technometrics, Vol. 22, No. 1, pp. 35-47.
Daftar Pustaka
171
Pfeifer, P.E. and Deutsch, S.J. (1980b). Identification and Interpretation of First Order Space-Time ARMA Models. Technometrics, Vol. 22, No. 1, pp. 397-408.
Phillips, P.C.B. (1989). Partially identified econometric models. Econometric Theory, vol. 5, pp. 181-240.
Poggio, T. and Girosi, F. (1990). Network for approximation and learning. Proceedings of IEEE, 78 (9), 1491-1497.
Prechelt, L. (1997). Investigation of the CasCor Family of Learning Algorithms. Neural Networks, 10, 885-896.
Priestley, M.B. (1980). State-dependent models: a general approach to non-linear time series analysis. Journal of Time Series Analysis, 1, 47-71.
Priestley, M.B. (1991). Non-Linear and Non-Stationary Time Series Analysis, 2nd edition. London: Academic Press.
Reddy, D.C. and Korrai, D.R. (1992). Neural Networks for classification of EEG signals. In: Lun et al. (eds.), Medinfo: 92, 653-658: Amsterdam, Elsevier.
Reed, R. (1993). Pruning algorithms – A survey. IEEE Transactions on Neural Networks, 4, 740-747.
Reed, R.D. and Marks II, R.J. (1999). Neural Smithing. MIT Press, Cambridge, MA.
Ripley, B.D. (1993). Statistical Aspects of Neural Networks. In O.E. Barndorff-Nielsen, J.L. Jensen and W.S. Kendall, eds., Networks and Chaos: Statistical and Probabilistic Aspects, Chapman & Hall.
Ripley, B.D. (1994). Neural Networks and Related Methods for Classification, Journal of the Royal Statistical Society, Series B, 56, 409-456.
Ripley, B.D. (1996). Pattern Recognition and Neural Networks. Cambridge University Press, Cambridge.
Ruchjana, B.N. (2002). Curve Modeling of Oil Production by Using Generalized S-TAR Model. Forum Statistika dan Komputasi, Special Edition, IPB, Bogor.
Ruchjana, B.N. (2003). The Stationary Conditions of The Generalized Space-Time Autoregressive Model. Proceeding of the SEAMS-GMU Conference, Gadjah Mada University, Yogyakarta.
Daftar Pustaka
172
Rumelhart, D. and McClelland, J. (1986). Parallel Distributed Processing: Explorations in the Microstructures of Coginition, Vol. 1., Cambridge: MIT Press.
Saikkonen, P. and Luukkonen, R. (1988). Lagrange multiplier tests for testing non-linearities in time series models. Scandinavian Journal of Statistics, 15, 55-68.
Sarle, W. (1994), Neural network and Statistical Models. In Proceeding 19th A SAS Users Group Int. Conf., pp. 1538-1550. Cary: SAS Institute.
Seber, G.A.F. and Wild, C.J. (1989). Nonlinear Regression. Wiley, New York.
Serfling, R. (1980). Approximation Theorems of Mathematical Statistics. Wiley, New York.
Somoza, E. and Somoza, J.R. (1993). A neural network approach to predicting admission in a psychiatric emergency room. Medical Decision Making, 13, 273-280.
Subanar and Suhartono (2005). Monte Carlo Simulation Study of The Neural Network Linearity Test for Time Series. Proceeding Asian Mathematics
Conference (AMC05), National University of Singapore, Singapore.
Subanar dan Suhartono (2006a). Uji linearitas tipe Lagrange Multiplier dengan ekspansi Taylor untuk deteksi hubungan nonlinear pada data time series, Journal of The Indonesian Mathematical Society (MIHMI), Vol. 12, No. 1, 17-32.
Subanar and Suhartono (2006b). Model Selection in Neural Networks by using Inference of R2
incremental and Principal Component Analysis for Time Series Forecasting. Presented at The 2nd IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Universiti Sains Malaysia, Penang.
Subanar, Guritno, S. dan Hartati, S. (2005). Neural Network, Pemodelan Statistik dan Peramalan Data Finansial. Laporan Penelitian HPTP Tahun I, UGM, Yogyakarta.
Suhartono (2005). Neural Networks, ARIMA and ARIMAX Models for Forecasting Indonesian Inflation. Jurnal Widya Manajemen & Akuntansi, Vol. 5, No. 3, hal. 45-65.
Daftar Pustaka
173
Suhartono and Atok, R.M. (2005). Perbandingan antara model VARIMA dan GSTAR untuk peramalan data deret waktu dan lokai. Prosiding Seminar Nasional Statistika VII, Institut Teknologi Sepuluh Nopember, Surabaya.
Suhartono dan Atok, R.M. (2006). Pemilihan bobot lokasi yang optimal pada model GSTAR. Prosiding Konferensi Nasional Matematika XIII, Universitas Negeri Semarang.
Suhartono and Subanar (2004). The Neural Network Linearity Test for Time Series Modeling. Proceeding International Conference on Statistics and Mathematics and Its Applications in the Development of Science and
Technology, Bandung Islamic University, Bandung.
Suhartono and Subanar (2006a). The Effect of Decomposition Method as Data Preprocessing on Neural Networks Model for Forecasting Trend and Seasonal Time Series. JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 9, No. 2, pp. 27-41.
Suhartono and Subanar (2006b). The Optimal Determination of Space Weight in GSTAR Model by using Cross-correlation Inference. JOURNAL OF QUANTITATIVE METHODS: Journal Devoted to The Mathematical and Statistical Application in Various Fields, Vol. 2, No. 2, pp. 45-53.
Suhartono and Subanar (2007). Some Comments on the Theorem Providing Stationarity Condition for GSTAR Models in the Paper by Borovkova et al. Journal of The Indonesian Mathematical Society (MIHMI), Vol. 13, No. 1, pp. 44-52.
Suhartono, Subanar and Guritno, S. (2005a). A Comparative Study of Forecasting Models for Trend and Seasonal Time Series: Does complex model always yield better forecast than simple models? JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 7, No. 1, pp. 27-41.
Suhartono, Subanar and Guritno, S. (2005b). The Impact of Data Preprocessing on Feedforward Neural Networks Model for Forecasting Trend and Seasonal Time Series. Proceeding Mini Symposia, International Con-ference on Applied Mathematics (ICAM05), ITB, Bandung.
Suhartono, Subanar and Rezeki, S. (2005c). Feedforward Neural Networks Model for Forecasting Trend and Seasonal Time Series. Proceeding of The
Daftar Pustaka
174
1st IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia
Suhartono, Rezeki, S., Subanar and Guritno, S. (2005d). Optimisation of Backpropagation Algorithm of Feedforward Neural Networks for Regression and Time Series Modeling. Proceeding International Regional Conference on
Mathematics, Statistics and It’s Application (IRCMSA), Danau Toba, Medan.
Suhartono, Subanar and Guritno, S. (2006a). Model Selection in Neural Networks by Using Inference of R2
Incremental, PCA, and SIC Criteria for Time Series Forecasting, JOURNAL OF QUANTITATIVE METHODS: Journal
Devoted to The Mathematical and Statistical Application in Various Fields, Vol. 2, No. 1, 41-57.
Suhartono, Subanar and Guritno, S. (2006b). Model Building in Neural Networks for Time Series Forecasting by Using Inference of R2 Incremental and SIC Criterion. Proceeding of The 2nd Information and Communication Technology
Seminar (ICTS), Institut Teknologi Sepuluh Nopember, Surabaya.
Suhartono, Subanar and Guritno, S. (2006c). The Impact of Linearity test on Forecasting Indonesian Inflation by Using Neural Networks. Proceeding of the International Conference on Mathematics and Statistics (ICOMS), Bandung Islamic University, Bandung.
Swanson, N.R. and White, H. (1995). A model-selection approach to assessing the information in the term structure using linear models and artificial neural networks. Journal of Business and Economic Statistics, 13, 265-275.
Swanson, N.R. and White, H. (1997a). Forecasting economic time series using flexible versus fixed specification and linear versus nonlinear econometric models. International Journal of Forecasting, 13, 439-461.
Swanson, N.R. and White, H. (1997b). A model-selection approach to real-time macroeconomic forecasting using linear models and artificial neural networks. Review of Economic and Statistics, 79, 540-550.
Tang, Z., Almeida, C. and Fishwick, P.A. (1991). Time series forecasting using neural networks vs. Box-Jenkins methodology. Simulation, 57:5, pp. 303-310.
Daftar Pustaka
175
Terasvirta, T. and Lin, C.F. (1993). Determining the number of hidden units in single hidden-layer neural network model. Research Report 1993/7, Bank of Norway.
Terasvirta, T., Lin, C.F. and Granger, C.W.J. (1993). Power of the neural network linearity test. Journal of Time Series Analysis, 14, 159-171.
Terasvirta, T., Tjostheim, D. and Granger, C.W.J. (1994). Aspect Modelling Nonlinear Time Series, in: R.F. Engle and D.L. McFadden, eds., Handbook of econometrics. Vol. 4, Chapter 48, pp. 2919-2957, Elsevier Science B.V.
Tong, H. (1990). Non-Linear Time Series: A Dynamical System Approach. Oxford: Oxford University Press.
Wei, W.W.S. (1990). Time Series Analysis: Univariate and Multivariate Methods. Addison-Wesley Publishing Co., USA.
Weigend, A.S. (1996). Time series analysis and prediction. In Smolensky, P., Mozer, M.C., and Rumelhart, D.E. (eds.), Mathematical Perspectives on Neural Networks. Mahwah, New Jersey: Lawrence Erlbaum Associates.
Weigend, A.S., Hubermann, B.A. and Rumelhart, D.E. (1990). Predicting the future: A connectionist approach. International Journal of Neural Systems, 1, 193-209.
Weigend, A.S. and Gershenfeld, N.A. (eds.) (1993). Time Series Prediction: Forecasting the Future and Understanding the Past. Reading, MA: Addison-Wesley.
Weinstein, J.N., Kohn, K.W., Greuer, M.R., Viswanadhan, V.N. and Rubinstein, L.V. (1992). Neural computing in cancer drug development: Predicting mechanism of action. Science, 258, 447-451.
West, P.M., Brockett, P.L. and Golden, L.L. (1997). A comparative analysis of neural networks and statistical methods for predicting consumer choice. Marketing Science, 16, 370-391.
White, H. (1989a). Some asymptotic results for learning in single hidden layer feedforward networks. Journal of the American Statistical Association, Vol. 84, No. 408, pp. 1003-1013.
White, H. (1989b). Learning in Artificial Neural Networks: A statistical Perspective. Neural Computation, Vol. 1, pp. 425-464.
Daftar Pustaka
176
White, H. (1989c). An additional hidden unit test for neglected nonlinearity in multilayer feedforward networks. In Proceedings of the International Joint Conference on Neural Networks, vol. 2, pp. 451-455, Washington, DC. IEEE Press, NY.
White, H. (1990). Connectionist nonparametric regression: Multilayer feed forward networks can learn arbitrary mapping. Neural Networks, 3, 535-550.
White, H. (1999). Asymptotic Theory for Econometricians. Academic Press Inc., New York.
Wilson, R.L. (1994). A neural network approach to decision alternative prioritization. Decision Support Systems, 11, 431-447.
Wilson, R.L. and Sharda, R. (1994). Bankruptcy prediction using neural network. Decision Support Systems, 11, 545-557.
Wong, B.K., Lai, V.S. and Lam, J. (2000). A bibliography of neural network business applications research: 1994-1998. Computers and Operations
Research, 27, 1045-1076.
Yao, J. and Tan, C.L. (2000). A case study on using neural networks to perform technical forecasting of forex. Neurocomputing, 34, 79-98.
Yule, G.U. (1927). On a method of investigating periodicities in distributed series with special reference to Wolfer’s sunspot numbers. Philosopical Transactions of the Royal Society of London Series A, 226, 267-298.
- 177 -
Lampiran 1 : Kumpulan bukti-bukti Teorema di Bab III
Bukti: (Teorema 3.2.1, White 1989b)
Aplikasikan Proposisi 3.2.1 untuk pembuktian teorema ini. Asumsi 3.2.1
memastikan bahwa nZ adalah IID dan terbatas secara seragam. Asumsi 3.2.2
memastikan bahwa )),((),(),(),( wxywxwxywz ff,qm −′∇=′−∇= adalah
dapat diturunkan secara kontinyu pada lv ℜ×ℜ . Diketahui bahwa
)))(()(()),,(()( wwww ttttt fYfEXYqEM −′∇=′−∇= .
Untuk w tetap, kontinyuitas dari )),((),( wxwx fyf −′∇ pada suatu sub-
himpunan kompak vℜ yang mengandung ),( tt XY berimplikasi bahwa
))(()( ww ttt fYf −′∇ adalah terbatas, memastikan bahwa ∞<)(wM . Asumsi
3.2.3 menentukan suatu kondisi untuk nη .
Gunakan 2/))](())([()( www tttt fYfYEQ −′−= . Dengan versi
terlokalisasi Teorema 16.8(ii) dari Billingsley (1979; halaman 181-182), untuk
setiap lℜ∈w dapat diperoleh )())((()( www ttt ffYEQ ∇′−−=∇ , diberikan
Asumsi 3.2.1 dan 3.2.2. Sebagai konsekuensinya, )()( ′−=∇ ww MQ , sehingga
)()( ww MQ∇ 0)()( ≤′−= ww MM untuk semua w dalam lℜ . Kondisi dari
Proposisi 3.2.1(a) dengan demikian telah terpenuhi, membuktikan hasil yang
pertama.
Untuk membuktikan hasil kedua, dilakukan jika ∞→nw~ . Anggap hal itu
tidak dipenuhi. Kondisi dari Proposisi 3.2.1(a) telah dibuktikan, dan
)()( ′−∇= ww QM . Diasumsikan bahwa )(wQ mempunyai titik-titik stasioner
yang terisolasi, sehingga ini tetap untuk membuktikan kondisi dari Proposisi
3.2.1(b) untuk setiap ∗∗ ∈ Ww . Dengan versi terlokalisasi Teorema 16.8(ii) dari
Billingsley (1979; halaman 181-182), )(wM adalah dapat diturunkan secara
kontinyu untuk semua w dalam lℜ , diberikan Asumsi 3.2.1 dan 3.2.2, dengan
))(]))([()()(()( 2 wwwww tltttt fIfYffEM ∇⊗′−−∇′∇−=∇ ,
Lampiran 1. Lanjutan
178
dengan )vec(2 ff ∇∇≡∇ adalah suatu matriks turunan kedua yang berukuran
llp × . Suatu batasan yang seragam dari ),( tt XY memastikan ∞<∇ )(wM
untuk semua w . Batasan ini juga memastikan keberhinggaan (finiteness) dari *J , yang diasumsikan definit positif. Dengan demikian kondisi dari Proposisi
3.2.1(b) terpenuhi, dan dengan Proposisi 3.2.1(c) nw~ cenderung menuju suatu
minimum lokal dari )(wQ .
Bukti: (Teorema 3.2.2, White 1989b)
Eksistensi dari nw mengikuti karena untuk setiap realisasi dari tZ , nQ adalah
suatu fungsi kontinyu pada suatu himpunan kompak, K,2,1=n .
Diberikan dominasi dari l dan kekompakan dari W , seperti pada
Teorema 16.8(i) dari Billingsley (1979; halaman 181-182) bahwa Q adalah
kontinyu pada W . Diberikan dominasi dari l , kekompakan dari W , dan asumsi
tZ adalah IID, dengan mengikuti hukum seragam dari bilangan besar atau the
uniform law of large numbers, bahwa PsaQQnWw −→−∈ .. 0|)()(ˆ|sup ww . Pilih
suatu realisasi dari tZ agar supaya konvergensi ini terjadi.
Untuk realisasi ini, misalkan ˆ nw adalah suatu barisan yang memi-
nimisasi nQ , K,2,1=n . Karena W adalah kompak, maka ada suatu titik batas
Ww ∈O dan suatu sub barisan n′ sedemikian hingga On ww →′ˆ . Ini
mengikuti pertidaksamaan segitiga yaitu
≤−′′ |)(ˆ)ˆ(ˆ| 0ww QQ nn ε2|)()ˆ(||)ˆ()ˆ(ˆ| <−+− ′′′′O
nnnn QQQQ wwww ,
untuk sembarang 0>ε dan semua n′ cukup besar, diberikan suatu konvergensi
seragam dan kontinyuitas yang telah terbukti. Sekarang
=− )()( ww QQ O )](ˆ)ˆ(ˆ[)]ˆ(ˆ)([ wwww nnnnnO QQQQ ′′′′′ −+−
ε3)]()(ˆ[ ≤−+ ′ ww QQn
untuk sembarang 0>ε dan semua n′ cukup besar, karena )ˆ(ˆ)( nnO QQ ′′− ww
ε2≤ seperti yang telah terbukti, 0)(ˆ)ˆ(ˆ ≤−′′ ww nnn QQ melalui optimalisasi nw ′ˆ
Lampiran 1. Lanjutan
179
dan ε<−′ )()(ˆ ww QQn melalui konvergensi seragam. Karena ε adalah sem-
barang, )()( ww QQ O ≤ , dan karena w adalah sembarang *Ww ∈O . Karena
ˆ nw adalah sembarang, maka setiap titik batas Ow dari suatu barisan adalah
termasuk dalam *W .
Sekarang anggap bahwa 0ˆinf *** →−
∈ww nWw
. Maka, ada suatu 0>ε
dan suatu sub barisan n′ sedemikian hingga ε≥−′*ˆ ww n untuk semua n′
dan ∗∗ ∈ Ww . Meski begitu ˆ n′w mempunyai suatu titik batas yang (melalui
argumen sebelumnya) harus termasuk dalam *W . Ini adalah suatu kontradiksi
dengan ε≥−′*ˆ ww n untuk semua n′ , sehingga 0ˆinf *
** →−∈
ww nWw.
Karena realisasi dari tZ dipilih dari suatu himpunan dengan probabilitas 1,
maka kesimpulan untuk bukti dari Teorema 3.2.2 mengikuti.
Bukti: (Teorema 3.3.2, White 1989b)
Aplikasikan Proposisi 3.3.1 untuk pembuktian teorema ini. Asumsi 3.2.1, 3.3.1,
dan 3.3.2 adalah cukup untuk Asumsi 3.2.1–3.2.3 dan dengan demikian juga
untuk syarat-syarat dari Proposisi 3.2.1(a). Karena ∗w diasumsikan ter-isolasi,
kondisi pertama dari Proposisi 3.2.1(b) terpenuhi. Kondisi-kondisi yang lain dari
Proposisi 3.2.1(b) terpenuhi dengan diberikan suatu asumsi definit positif pada ∗J dan Asumsi 3.2.1–3.2.3 (seperti yang diverifikasi pada pembuktian Teorema
3.2.1), dimana Asumsi 3.2.1, 3.3.1, dan 3.3.2 adalah cukup. Asumsi 3.2.1 dan
3.3.1 memastikan bahwa ∆<−′∇= |))(()(||),(| www tttt fYfZm a.s. untuk semua
w dalam W , dan kondisi yang dibutuhkan pada ∗λ ditentukan secara langsung.
Asumsi 3.2.1 dan 3.3.1 membolehkan pemakaian Teorema 16.8(i) dari Billingsley
(1979; halaman 181-182) untuk membuktikan kontinyuitas dari J pada suatu
persekitaran ∗w . Dengan demikian kondisi-kondisi pada Proposisi 3.3.1
terpenuhi.
Lampiran 1. Lanjutan
180
Bukti: (Teorema 3.3.3, White 1989a)
Kurangi nw dengan ∗w dan kalikan dengan 2/1n , menghasilkan
nnnn MnMnn ~~)~()ˆ( 2/112/12/1 −∗∗ ∇−−=− wwww
)~(~~)~( 2/112/112/1 ∗−∗−∗ −∇∇−∇−−= wwww nnnnnn nMMMnMn &&
oleh suatu ekspansi nilai mean di sekitar ∗w , dengan ),( ∗∗ ⋅≡ wnn MM dan
nM&&∇ mempunyai baris-baris yang dievaluasi pada nilai-nilai yang berada di
suatu segmen yang berhubungan dengan nw~ dan ∗w . nM~∇ adalah nonsingular
a.s. (almost sure) sebagai konsekuensi dari ∗→ ww ..~ san dan
0),(),( ..→⋅∇−⋅∇ san MM ww secara seragam pada W , berimplikasi bahwa
0~ →∇−∇ ∗MM n a.s. dengan asumsi, ∗∇M adalah terhingga dan nonsingular.
Tulis kembali, menghasilkan
∗−∗∗ −∇=− nn MnMn 2/112/1 )ˆ( ww ∗−∗− ∇−∇− nn MnMM 2/111 )~(
)~()~( 2/11 ∗− −∇∇−+ ww nnn nMMI &&
)1(2/11pn oMnM +−∇= ∗−∗ .
Sekarang )1()~( 2/111pnn oMnMM =∇−∇ ∗−∗− , karena 0)~( ..11 →∇−∇
−∗− san MM
sebagai konsekuensi dari 0~ ..→∇−∇ ∗ san MM dan karena ∗
nMn 2/1 adalah
)1(pO diberikan bahwa ∗nMn 2/1 ),( ∗Ν→ B0d . Selanjutnya,
)1()~()~( 2/11pnnn onMM =−∇∇− ∗− wwI &&
diberikan suatu keberhinggaan dari ∗∇M , suatu fakta bahwa ∗∇→∇ MM san
..~
dan ∗∇→∇ MM san
..&& , dan suatu asumsi bahwa )1()~(2/1pn On =− ∗ww . Hal ini
mengikuti secara langsung [sebagai contoh, lihat Proposisi 2.3.14 di Bab II
sebelumnya atau Lemma 4.7 dan Corollary 4.24 dari White (1999; halaman 71
dan 74)] bahwa
),()ˆ(2/1 ∗∗ Ν→− C0ww dnn ,
dengan '11 ∗−∗∗−∗ ≡ ABAC , ∗∗ ∇≡ MA .
Lampiran 1. Lanjutan
181
Bahwa ∗→ ww ..ˆ san mengikuti definisi dari nw dan suatu kenyataan
bahwa ∗→ ww ..~ san , ∗∇→∇ MM sa
n..~ , dan 0~ =→ ∗MM n a.s. Yang terakhir
dipenuhi karena 0)(),( ..→−⋅ san MM ww secara seragam pada W dan
0)( =∗wM . Dengan menggunakan Proposisi 2.11 dari White (1999; halaman
19), ∗→ CC ..~ san diberikan ∗→ AA ..~ sa
n dan ∗→ nsa
n BB ..~ , dengan
nn M~~∇≡A .
- 182 -
Lampiran 2 : Macro uji Terasvirta pada program R ## --------------------------------------------------------------- ## ## Uji Terasvirta untuk linearitas pada pemodelan time series ## Sumber : library(tseries) di R ## Author : A. Trapletti ## Modifikasi : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## --------------------------------------------------------------- terasvirta.test <- function(x, ...) UseMethod("terasvirta.test") terasvirta.test.ts <- function(x, lag = 1, type = c("Chisq", "F"), scale = TRUE, ...)
if(!is.ts(x)) stop("method is only for time series") if(NCOL(x) > 1) stop("x is not a vector or univariate time series") if(any(is.na(x))) stop("NAs in x") if(lag < 1) stop("minimum lag is 1") if(!missing(type) && !is.na(pmatch(type, "chisq"))) warning(paste("value `chisq' for `type' is deprecated,", "use `Chisq' instead")) type <- "Chisq" else type <- match.arg(type) DNAME <- deparse(substitute(x)) t <- length(x) if(scale) x <- scale(x) y <- embed(x, lag+1) xnam <- paste("y[,", 2:(lag+1), "]", sep="") fmla <- as.formula(paste("y[,1]~",paste(xnam,collapse= "+"))) rr <- lm(fmla) u <- residuals(rr) ssr0 <- sum(u^2) xnam2 <- NULL m <- 0 for(i in (1:lag)) for(j in (i:lag)) xnam2 <- c(xnam2,paste("I(y[,",i+1,"]*y[,",j+1,"])",sep="")) m <- m+1 xnam2 <- paste(xnam2,collapse="+") xnam3 <- NULL for(i in (1:lag)) for(j in (i:lag)) for(k in (j:lag))
Lampiran 2. Lanjutan
183
xnam3 <- c(xnam3, paste("I(y[,", i+1, "]*y[,", j+1, "]*y[,", k+1, "])", sep="")) m <- m+1 xnam3 <- paste(xnam3,collapse="+") fmla <- as.formula(paste("u~",paste(paste(xnam,collapse= "+"), xnam2,xnam3,sep="+"))) rr <- lm(fmla) v <- residuals(rr) ssr <- sum(v^2) if(type == "Chisq") STAT <- t*log(ssr0/ssr) PVAL <- 1-pchisq(STAT,m) PARAMETER <- m names(STAT) <- "X-squared" names(PARAMETER) <- "df" save(PVAL, file = “tpc.Rdata”) else if(type == "F") STAT <- ((ssr0-ssr)/m)/(ssr/(t-lag-m)) PVAL <- 1-pf(STAT,m,t-lag-m) PARAMETER <- c(m,t-lag-m) names(STAT) <- "F" names(PARAMETER) <- c("df1","df2") save(PVAL, file = “tpf.Rdata”) else stop("invalid type") METHOD <- "Teraesvirta Neural Network Test" ARG <- c(lag,scale) names(ARG) <- c("lag","scale") structure(list(statistic = STAT, parameter = PARAMETER, p.value = PVAL, method = METHOD, data.name = DNAME, arguments = ARG), class = "htest")
- 184 -
Lampiran 3 : Macro uji White pada program R
## --------------------------------------------------------------- ## ## Uji White untuk linearitas pada pemodelan time series ## Sumber : library(tseries) di R ## Author : A. Trapletti ## Modifikasi : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## --------------------------------------------------------------- white.test <- function(x, ...) UseMethod("white.test") white.test.ts <- function(x, lag = 1, qstar = 2, q = 10, range = 4, type = c("Chisq","F"), scale = TRUE, ...)
if(!is.ts(x)) stop("method is only for time series") if(NCOL(x) > 1) stop("x is not a vector or univariate time series") if(any(is.na(x))) stop("NAs in x") if(lag < 1) stop("minimum lag is 1") if(!("package:stats" %in% search()) && !require("mva", quietly=TRUE)) stop("package", sQuote("mva"), "is needed. Stopping") if(!missing(type) && !is.na(pmatch(type, "chisq"))) warning(paste("value `chisq' for `type' is deprecated,", "use `Chisq' instead")) type <- "Chisq" else type <- match.arg(type) DNAME <- deparse(substitute(x)) t <- length(x) if(scale) x <- scale(x) y <- embed(x, lag+1) xnam <- paste("y[,", 2:(lag+1), "]", sep="") fmla <- as.formula(paste("y[,1]~",paste(xnam,collapse= "+"))) rr <- lm(fmla) u <- residuals(rr) ssr0 <- sum(u^2) max <- range/2 gamma <- matrix(runif((lag+1)*q,-max,max),lag+1,q) phantom <- (1+exp(-(cbind(rep(1,t-lag),y[,2:(lag+1)])%*%gamma)))^(-1) phantomstar <- as.matrix(prcomp(phantom,scale=TRUE)$x[,2:(qstar+1)]) xnam2 <- paste("phantomstar[,", 1:qstar, "]", sep="") xnam2 <- paste(xnam2, collapse="+") fmla <- as.formula(paste("u~",paste(paste(xnam,collapse= "+"), xnam2,sep="+"))) rr <- lm(fmla)
Lampiran 3. Lanjutan
185
v <- residuals(rr) ssr <- sum(v^2) if(type == "Chisq") STAT <- t*log(ssr0/ssr) PVAL <- 1-pchisq(STAT,qstar) PARAMETER <- qstar names(STAT) <- "X-squared" names(PARAMETER) <- "df" save(PVAL, file = “wpc.Rdata”) else if(type == "F") STAT <- ((ssr0-ssr)/qstar)/(ssr/(t-lag-qstar)) PVAL <- 1-pf(STAT,qstar,t-lag-qstar) PARAMETER <- c(qstar,t-lag-qstar) names(STAT) <- "F" names(PARAMETER) <- c("df1","df2") save(PVAL, file = “wpf.Rdata”) else stop("invalid type") ARG <- c(lag,qstar,q,range,scale) names(ARG) <- c("lag","qstar","q","range","scale") METHOD <- "White Neural Network Test" structure(list(statistic = STAT, parameter = PARAMETER, p.value = PVAL, method = METHOD, data.name = DNAME, arguments = ARG), class = "htest")
- 186 -
Lampiran 4 : Macro Studi Simulasi 1000 kali untuk keenam model untuk uji Terasvirta dan uji White pada program R
## --------------------------------------------------------------- ## ## Macro studi simulasi 1000 kali untuk uji Terasvirta dan ## uji White pada keenam model data simulasi ## ## Author : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## ---------------------------------------------------------------
for (j in c(1:1000) ) n <- 400 x <- runif(400, -1, 1) x[1] <- 0.0 x[2] <- 0.0 x1 <- x x2 <- x x3 <- x x4 <- x x5 <- x x6 <- x for(i in (3:n)) e <- rnorm(1, sd=0.5) x1[i] <- 1.2*x1[i-1] - 0.6*x1[i-2] + e x2[i] <- x2[i-1] + e x3[i] <- 1.2*x3[i-1] - 0.6*x3[i-2] + e x4[i] <- 1.2*x4[i-1] - 0.6*x4[i-2] + (0.02 - 0.9*x4[i-1] + 0.795*x4[i-2]) / (1 + exp(-100*(x4[i-1] - 0.02))) + 0.1*e x5[i] <- 1.2*x5[i-1] - 0.6*x5[i-2] + (0.02 - 0.9*x5[i-1] + 0.795*x5[i-2]) * (1 - exp(-200*x5[i-1]*x5[i-1])) + 0.1*e x6[i] <- 6.5*x6[i-1]*exp(-0.25*x6[i-1]*x6[i-1]) + e x1 <- x1[201:400] x1 <- as.ts(x1) ## Data model 1 x2 <- x2[201:400] x2 <- as.ts(x2) ## Data model 2 x3 <- x3[201:400] x3[101] <- 5 x3 <- as.ts(x3) ## Data model 3 x4 <- x4[201:400] x4 <- as.ts(x4) ## Data model 4 x5 <- x5[201:400] x5 <- as.ts(x5) ## Data model 5 x6 <- x6[201:400] x6 <- as.ts(x6) ## Data model 6 wc <- white.test(x1,lag=2,type=c("Chisq")) wf <- white.test(x1,lag=2,type=c("F")) tc <- terasvirta.test(x1, lag=2, type=c("Chisq")) tf <- terasvirta.test(x1, lag=2, type=c("F"))
Lampiran 4. Lanjutan
187
load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ") wc <- white.test(x2,lag=1,type=c("Chisq")) wf <- white.test(x2,lag=1,type=c("F")) tc <- terasvirta.test(x2, lag=1, type=c("Chisq")) tf <- terasvirta.test(x2, lag=1, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ") wc <- white.test(x3,lag=2,type=c("Chisq")) wf <- white.test(x3,lag=2,type=c("F")) tc <- terasvirta.test(x3, lag=2, type=c("Chisq")) tf <- terasvirta.test(x3, lag=2, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ") wc <- white.test(x4,lag=2,type=c("Chisq")) wf <- white.test(x4,lag=2,type=c("F")) tc <- terasvirta.test(x4, lag=2, type=c("Chisq")) tf <- terasvirta.test(x4, lag=2, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ") wc <- white.test(x5,lag=2,type=c("Chisq")) wf <- white.test(x5,lag=2,type=c("F")) tc <- terasvirta.test(x5, lag=2, type=c("Chisq")) tf <- terasvirta.test(x5, lag=2, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ")
Lampiran 4. Lanjutan
188
wc <- white.test(x6,lag=1,type=c("Chisq")) wf <- white.test(x6,lag=1,type=c("F")) tc <- terasvirta.test(x6, lag=1, type=c("Chisq")) tf <- terasvirta.test(x6, lag=1, type=c("F")) load("wpc.Rdata") cat(PVAL*1, " ") load("wpf.Rdata") cat(PVAL*1, " ") load("tpc.Rdata") cat(PVAL*1, " ") load("tpf.Rdata") cat(PVAL*1, " ")
- 189 -
Lampiran 5 : Contoh hasil jalannya macro pada keenam model
§ Run program R R : Copyright 2002, The R Development Core Team Version 1.5.0 (2002-04-29) R is free software and comes with ABSOLUTELY NO WARRANTY. You are welcome to redistribute it under certain conditions. Type `license()' or `licence()' for distribution details. R is a collaborative project with many contributors. Type `contributors()' for more information. Type `demo()' for some demos, `help()' for on-line help, or `help.start()' for a HTML browser interface to help. Type `q()' to quit R. [Previously saved workspace restored]
§ Setelah ada di program R
1. Ketik dan enter ð library(tseries) 2. Jalankan macro uji Terasvirta 3. Jalankan macro uji White
> library(tseries) > ## ------------------------------------------------------------- > ## Uji Terasvirta untuk linearitas pada pemodelan time series > ## Sumber : library(tseries) di R > ## Author : A. Trapletti > ## Modifikasi : Suhartono, S.Si., M.Sc. > ## ------------------------------------------------------------- > terasvirta.test <- function(x, ...) UseMethod("terasvirta.test") > terasvirta.test.ts <- + function(x, lag = 1, type = c("Chisq", "F"), scale = TRUE, ...) … + > > ## ------------------------------------------------------------- > ## Uji White untuk linearitas pada pemodelan time series > ## Sumber : library(tseries) di R > ## Author : A. Trapletti > ## Modifikasi : Suhartono, S.Si., M.Sc. > ## ------------------------------------------------------------- > white.test <- function(x, ...) UseMethod("white.test") > white.test.ts <- … + >
Lampiran 5. Lanjutan
190
§ Jalankan studi simulasi (berikut contoh untuk hasil dari keenam model dengan
hanya 1 kali pengulangan)
Keterangan : Angka yang keluar di akhir macro adalah output yang berupa nilai p-value untuk setiap uji White dan uji Terasvirta, secara berurutan (satu kali running menghasilkan 24 angka) adalah uji White dengan statistik Chi-squares, F dan uji Terasvirta dengan statistik Chi-squares dan F untuk model 1, 2, ..., 6 secara berurutan.
> for (j in c(1:1) ) + + n <- 400 + x <- runif(400, -1, 1) + x[1] <- 0.0 + x[2] <- 0.0 + x1 <- x + x2 <- x + x3 <- x + x4 <- x + x5 <- x + x6 <- x + for(i in (3:n)) + e <- rnorm(1, sd=0.5) + x1[i] <- 1.2*x1[i-1] - 0.6*x1[i-2] + e + x2[i] <- x2[i-1] + e + x3[i] <- 1.2*x3[i-1] - 0.6*x3[i-2] + e + x4[i] <- 1.2*x4[i-1] - 0.6*x4[i-2] + (0.02 - 0.9*x4[i-1] + + 0.795*x4[i-2]) / (1 + exp(-100*(x4[i-1] - 0.02))) + + 0.1*e + x5[i] <- 1.2*x5[i-1] - 0.6*x5[i-2] + (0.02 - 0.9*x5[i-1] + + 0.795*x5[i-2]) * (1 - exp(-200*x5[i-1]*x5[i-1])) + + 0.1*e + x6[i] <- 6.5*x6[i-1]*exp(-0.25*x6[i-1]*x6[i-1]) + e + … + wc <- white.test(x6,lag=1,type=c("Chisq")) + wf <- white.test(x6,lag=1,type=c("F")) + tc <- terasvirta.test(x6, lag=1, type=c("Chisq")) + tf <- terasvirta.test(x6, lag=1, type=c("F")) + load("wpc.Rdata") + cat(PVAL*1, " ") + load("wpf.Rdata") + cat(PVAL*1, " ") + load("tpc.Rdata") + cat(PVAL*1, " ") + load("tpf.Rdata") + cat(PVAL*1, " ") + 0.7210663 0.8661705 0.7357942 0.7527205 0.04703406 0.3828929
0.2310951 0.2362294 4.1301e-06 1.133555e-05 1.736178e-08 3.615592e-08 0.1765474 0.3807794 0.0003243584 0.0004675579 0.04960447 0.01884139 0.001494970 0.002028959 0 0 0 0 >
>
- 191 -
Lampiran 6 : Macro NNETM yang digunakan untuk mendapatkan model FFNN pada program S-plus
## --------------------------------------------------------------- ## ## Macro NNETM, modifikasi dari NNET, yang digunakan untuk ## mendapatkan model FFNN pada peramalan data time series ## ## Sumber : http://www.stat.lsa.umich.edu/~faraway/ ## Author : J. Faraway and C. Chatfield (1998) ## Modifikasi : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## ---------------------------------------------------------------
nnetm <- function(x,y,size,retry=1,maxit=2000, trace=F,nntrace=F,...) x <- x y <- y HUGE <- 1e37 minval <- HUGE rang <- 1/max(abs(x)) for(i in 1:retry) g <- nnet(x,y,size=size,rang=rang,linout=F,maxit=maxit, softmax=T,trace=nntrace,...) if (trace) if (min(eigen(nnet.Hess(g,x,y))$val) < 0) cat("Try ",i,": SS=",round(g$val,3),"(Possible non-minimum)\n") else cat("Try ",i,": SS=",round(g$val,3),"\n") if ( g$val < minval) gbest <- g minval <- g$val if ( minval == HUGE) error("Minimum not found") gbest$x <- x gbest$y <- y if(trace) cat ("Minimum SS = ",round(gbest$val,3)," in ",retry, "attempts\n") structure(gbest, class = c("nnts","nnet")) print.nnetm <- function(net) if(!inherits(net, "nnetm")) stop("Not legitimate a neural net/ time series fit") if(length(net) == 10) net$softmax <- F
Lampiran 6. Lanjutan
192
cat("a ", net$n[1], "-", net$n[2], "-", net$n[3], " network", sep = "") cat(" with", length(net$wts), "weights\n") cat("options were -") tconn <- diff(net$nconn) if(tconn[length(tconn)] > net$n[2] + 1) cat(" skip-layer connections ") if(net$decay > 0) cat(" decay=", net$decay, sep = "") cat("\n") summary.nnetm <- function(net) if(!inherits(net, "nnetm")) stop("Not legitimate a neural net/time series fit") if(length(net) == 10) net$softmax <- F cat("a ", net$n[1], "-", net$n[2], "-", net$n[3], " network", sep = "") cat(" with", length(net$wts), "weights\n") tconn <- diff(net$nconn) if(tconn[length(tconn)] > net$n[2] + 1) cat(" skip-layer connections ") if(net$decay > 0) cat(" decay=", net$decay, sep = "") cat("\n") cat("Unit 0 is constant one input\n") cat("Input units: ",paste("y ",net$y,"=",1:net$n[1],",", sep=""),"\n") cat("Hidden units are ",(net$n[1]+1):(net$n[1]+net$n[2]),"\n") cat("Output unit is",sum(net$n),"\n\n") wts <- format(round(net$wts, 4)) names(wts) <- apply(cbind(net$conn, rep(1:net$nunits - 1, tconn)), 1, function(x) paste(x, collapse = "->")) print(wts, quote = F) cat("Sum of squares is ",format(net$val),"\n") n <- length(net$fit) p <- length(net$wts) ft <- n*log(net$val/n) cat("AIC :",format(ft+2*p), ", SBC :",format(ft+p*log(n)), ", BIC :",format(ft+p+p*log(n)), ", MSE :",format(net$val/(n-p)), ", residual se :",format(sqrt(net$val/(n-p))),"\n") invisible()
- 193 -
Lampiran 7 : Macro yang digunakan untuk mendapatkan model FFNN terbaik pada program S-plus melalui inferensia R2
incremental dan uji Wald
## --------------------------------------------------------------- ## ## Macro yang digunakan untuk mendapatkan model FFNN terbaik ## pada peramalan data time series melalui inferensia R2incremental ## dan uji Wald ## ## Author : Suhartono, S.Si., M.Sc. ## Mahasiswa S3 Statistika UGM ## Yogyakarta – 2007 ## ## ---------------------------------------------------------------
library(nnet) # Jalankan command-command ini untuk addNnetMenus() # memulai bekerja NNET di S-plus library(MASS) addMassMenus()
## --------------------------------------------------------------- ## Jalankan macro nnetm (NNET modifikasi), yang terdiri dari nnetm, print.nnetm, summary.nnetm) ## --------------------------------------------------------------- ## Data simulasi, dengan nama file ESTAR1, sudah tersimpan di S-plus
y.all <- cbind(estar1[,1]) y1.all <- cbind(estar1[,2]) y2.all <- cbind(estar1[,3]) y3.all <- cbind(estar1[,4]) y4.all <- cbind(estar1[,5]) y5.all <- cbind(estar1[,6]) y6.all <- cbind(estar1[,7]) y.train <- cbind(y.all[1:100]) # Data training y.test <- cbind(y.all[101:120]) # Data testing y1.train <- cbind(y1.all[1:100]) y1.test <- cbind(y1.all[101:120]) y2.train <- cbind(y2.all[1:100]) y2.test <- cbind(y2.all[101:120]) y3.train <- cbind(y3.all[1:100]) y3.test <- cbind(y3.all[101:120]) y4.train <- cbind(y4.all[1:100]) y4.test <- cbind(y4.all[101:120]) y5.train <- cbind(y5.all[1:100]) y5.test <- cbind(y5.all[101:120]) y6.train <- cbind(y6.all[1:100]) y6.test <- cbind(y6.all[101:120]) x.train <- cbind(y1.train,y2.train,y3.train,y4.train,y5.train,y6.train) x.test <- cbind(y1.test,y2.test,y3.test,y4.test,y5.test,y6.test) ## ---------------------------------------------------------------
Lampiran 7. Lanjutan
194
## Program NNETM dengan membagi data menjadi data training ## dan data testing atau out-sample forecast ## Data ESTAR1 dengan input lag 1,2,...,6 ## ## --------------------------------------------------------------- hasil.train <- nnetm(x.train, y.train, size=2, retry=50, linout=T, maxit=10000, trace=T, abstol=1.0e-6, reltol=1.0e-6) summary(hasil.train) # Training output y.hat <- predict.nnet(hasil.train, x.train) # Prediksi training rxy.train <- cor(y.train,y.hat) # Korelasi y Vs y.hat rxy2.train <- rxy.train*rxy.train er.train <- y.train - y.hat # Residual training sse.train <- sum(er.train*er.train) # Nilai SSE training mse.train <- sse.train/100 # Nilai MSE training rmse.train <- sqrt(mse.train) # Nilai RMSE training mae.train <- sum(abs(er.train))/100 mape.train <- sum(abs(er.train/y.train))/100*100 aic <- (100*log(mse.train))+(2*49) # 49 = jumlah parameter sic <- (100*log(mse.train))+(49*log(100)) R2.inc <- rxy2.train-0.987999 # 0.987999 = R2 sebelumnya mhess <- nnet.Hess(hasil.train, x.train, y.train) invhess <- solve(mhess) varb<-0.267511*invhess # Matriks var-cov(b) crit.train <- cbind(mse.train,rmse.train,mae.train,mape.train) r.train <- cbind(aic,sic,rxy.train,rxy2.train,R2.inc) crit.train r.train y.fore <- predict.nnet(hasil.train,x.test) # Prediksi testing rxy.out <- cor(y.test,y.fore) rxy2.out <- rxy.out*rxy.out er.out <- y.test - y.fore # Residual testing sse.out <- sum(er.out*er.out) # Nilai SSE testing mse.out <- sse.out/20 # Nilai MSE testing rmse.out <- sqrt(mse.out) # Nilai RMSE testing mae.out <- sum(abs(er.out))/20 mape.out <- sum(abs(er.out/y.test))/20*100 crit.out <- cbind(mse.out,rmse.out,mae.out,mape.out) r.out <- cbind(rxy.out,rxy2.out) crit.out r.out ## Aktual, ramalan, dan error pada training dan testing compar.train <- cbind(y.train,y.hat,er.train) compar.test <- cbind(y.test,y.fore,er.out) compar.train compar.test
- 195 -
Lampiran 8 : Data-data empiris
§ Data inflasi Indonesia, periode Januari 1999 – April 2005 (Petunjuk: baca mulai dari kiri ke kanan dan seterusnya)
1.16 1.31 0.57 1.69 0.49 0.16 0.71 0.32 0.38 0.64 0.42 0.79 2.16 1.71 -0.61 0.78 0.06 -0.07 0.68 0.27 -0.04 0.41 0.57 0.55 1.03 1.05 -0.12 0.56 0.19 -0.17 0.66 0.88 1.29 1.99 1.65 1.68 6.88 12.76 5.49 4.70 5.24 4.64 8.56 6.30 3.75 -0.27 0.08 1.33 2.97 1.26 -0.18 -0.68 -0.28 -0.34 -1.05 -0.93 -0.68 0.06 0.25 1.73 1.32 0.07 -0.45 0.56 0.84 0.50 1.28 0.51 -0.06 1.16 1.32 1.94 0.33 0.87 0.89 0.46 1.13 1.67 2.12 -0.21 0.64 0.68 1.71 1.62 1.99 1.50 -0.02 -0.24 0.80 0.36 0.82 0.29 0.53 0.54 1.85 1.20 0.80 0.20 -0.23 0.15 0.21 0.09 0.03 0.84 0.36 0.55 1.01 0.94 0.57 -0.02 0.36 0.97 0.88 0.48 0.39 0.09 0.02 0.56 0.89 1.04 1.43 -0.17 1.91 0.34
§ Data Airline, periode Januari 1949 – Desember 1960 (Petunjuk: baca mulai dari kiri ke kanan dan seterusnya)
112 118 132 129 121 135 148 148 136 119 104 118 115 126 141 135 125 149 170 170 158 133 114 140 145 150 178 163 172 178 199 199 184 162 146 166 171 180 193 181 183 218 230 242 209 191 172 194 196 196 236 235 229 243 264 272 237 211 180 201 204 188 235 227 234 264 302 293 259 229 203 229 242 233 267 269 270 315 364 347 312 274 237 278 284 277 317 313 318 374 413 405 355 306 271 306 315 301 356 348 355 422 465 467 404 347 305 336 340 318 362 348 363 435 491 505 404 359 310 337 360 342 406 396 420 472 548 559 463 407 362 405 417 391 419 461 472 535 622 606 508 461 390 432
Lampiran 8. Lanjutan
196
§ Data produksi minyak di tiga lokasi pengeboran, 60 data pengamatan (Petunjuk: Data ini sudah dilakukan pemrosesan awal data. Baca mulai dari kiri ke
kanan dan seterusnya)
§ Data pada lokasi 1 -0.054 0.330 0.424 -0.523 -1.491 -0.246 0.312 0.506 1.603 0.630 2.099 0.502 0.641 0.336 0.530 0.706 0.093 0.320 0.306 1.402 1.662 3.543 1.325 0.990 0.673 -0.303 -0.238 -0.203 -0.333 0.005 0.026 -0.605 0.481 0.340 0.892 0.510 1.135 0.197 -0.205 0.588 -0.160 -1.248 -0.599 -0.076 -1.457 -1.806 -1.843 -1.026 -0.699 -0.538 -0.989 -1.122 -1.436 -0.785 -0.225 -1.028 -1.014 -1.050 -0.713 -1.091 § Data pada lokasi 2 0.343 -1.192 -1.351 -0.969 -0.699 0.828 -0.199 0.455 0.361 0.381 -0.164 -0.981 -0.719 -1.318 -0.653 -0.067 1.453 1.788 2.486 3.109 1.502 -0.183 0.832 1.599 1.442 0.457 0.599 -0.335 0.376 0.493 -0.813 0.968 -0.194 -0.529 -0.252 -1.130 -0.652 0.914 0.074 0.240 0.750 0.850 0.224 -0.016 1.506 -0.467 -1.038 -0.776 -0.335 -0.606 -1.132 -0.853 -1.503 -1.203 -1.018 -0.840 -0.756 -0.912 0.074 -0.249 § Data pada lokasi 3 2.350 1.615 1.509 1.279 0.760 1.365 1.358 2.259 0.554 0.475 1.003 0.720 0.589 0.625 2.055 1.793 2.328 0.728 0.677 0.512 -0.080 -0.313 -0.299 -0.379 0.042 -0.325 -0.259 -0.188 -0.428 -0.409 -0.372 -0.409 -0.544 -1.099 -0.240 -0.855 -0.237 -0.516 -0.318 -0.533 -0.612 -0.644 -1.031 -0.830 -1.024 0.204 -1.144 -1.356 -1.479 -0.470 -0.996 -1.072 -0.822 -0.680 -0.688 -0.734 -0.842 -0.795 -0.715 -1.063
- - 197
DAFTAR RIWAYAT HIDUP
Nama Lengkap : Suhartono, S.Si., M.Sc. Jenis kelamin : Laki-laki Tempat dan tanggal lahir : Kemiri, 29 September 1971 Pangkat / Gol. / NIP : Penata / IIIC / 132 135 220 Jabatan Fungsional : Lektor
RIWAYAT PENDIDIKAN TINGGI : § Sarjana Statistika, FMIPA, Institut Teknologi Sepuluh Nopember, 1995. § Master of Science in Statistics, University of Manchester Institute of
Science and Technology (UMIST), UK, 1998.
RIWAYAT PEKERJAAN : § Dosen tetap di Jurusan Statistika, FMIPA, Institut Teknologi Sepuluh
Nopember, sejak 1995 sampai sekarang.
PUBLIKASI 4 TAHUN TERAKHIR (SELAMA MENGIKUTI PROGRAM S3) :
§ Jurnal Ilmiah Internasional 1. Suhartono and Subanar (2006). The Optimal Determination of Space
Weight in GSTAR Model by using Cross-correlation Inference. JOURNAL OF QUANTITATIVE METHODS: Journal Devoted to The Mathematical and Statistical Application in Various Fields, Vol. 2, No. 2, pp. 45-53. (ISSN: 1693-5098)
2. Suhartono, Subanar and Guritno, S. (2006). Model Selection in Neural Networks by Using Inference of R2
Incremental, PCA, and SIC Criteria for Time Series Forecasting, JOURNAL OF QUANTITATIVE METHODS: Journal Devoted to The Mathematical and Statistical Application in Various Fields, Vol. 2, No. 1, pp. 41-57. (ISSN: 1693-5098)
§ Jurnal Ilmiah Nasional
1. Suhartono and Subanar (2007). Some Comments on the Theorem Providing Stationarity Condition for GSTAR Models in the Paper by Borovkova et al. Journal of The Indonesian Mathematical Society (MIHMI), Vol. 13, No. 1, pp. 44-52. (ISSN: 0854-1380)
(Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)
Daftar Riwayat Hidup 198
2. Suhartono (2006). Calendar Variation Model for Forecasting Time Series Data with Islamic Calendar Effect. Jurnal Matematika, Sains, & Teknologi, Vol. 7, No. 2, hal. 85-94. (ISSN: 1411-1934)
3. Subanar dan Suhartono (2006). Uji linearitas tipe Lagrange Multiplier dengan ekspansi Taylor untuk deteksi hubungan nonlinear pada data time series, Journal of the Indonesian Mathematical Society (MIHMI), Vol. 12, No. 1, hal. 17-32. (ISSN: 0854-1380)
(Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)
4. Suhartono and Subanar (2006). The Effect of Decomposition Method as Data Preprocessing on Neural Networks Model for Forecasting Trend and Seasonal Time Series. JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 9, No. 2, pp. 27-41. (Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)
5. Suhartono (2005). Neural Networks, ARIMA and ARIMAX Models for Forecasting Indonesian Inflation. JURNAL WIDYA MANAJEMEN & AKUNTANSI, Vol. 5, No. 3, pp. 45-65.
(Terakreditasi: SK Dirjen Dikti No. 23a/DIKTI/Kep./2004)
6. Suhartono, Subanar and Guritno, S. (2005). A Comparative Study of Forecasting Models for Trend and Seasonal Time Series: Does Complex Model Always Yield Better Forecast than Simple Models. JURNAL TEKNIK INDUSTRI: Jurnal Keilmuan dan Aplikasi Teknik Industri, Vol. 7, No. 1, pp. 27-41.
(Terakreditasi: SK Dirjen Dikti No. 34/DIKTI/Kep./2003)
7. Suhartono (2004). Evaluasi pembentukan model VARIMA dan STAR untuk peramalan data deret waktu dan lokasi. Jurnal Matematika Integratif, Vol. 3, No. 2, hal. 45-56. (ISSN: 1412-6184)
8. Suhartono (2007). Teori dan Aplikasi Model Intervensi Fungsi Pulse. Diterima untuk dipublikasikan pada di Jurnal MatStat (Terakreditasi) edisi Juli 2007, Universitas Bina Nusantara.
§ Seminar Internasional 1. Suhartono, Subanar and Guritno, S., “Model Building in Neural
Networks for Time Series Forecasting by Using Inference of R2 Incremental and SIC Criterion”, Proceeding of The 2nd Information and Communication Technology Seminar (ICTS), ITS, Surabaya, August 2006, pp. 408-411. (ISSN: 1858-1633)
Daftar Riwayat Hidup 199
2. Suhartono and Subanar, “The Impact of Linearity test on Forecasting Indonesian Inflation by Using Neural Networks”, Proceeding of the International Conference on Mathematics and Statistics (ICOMS), Bandung Islamic University, Bandung, July 2006, pp. 565-574.
(ISBN: 978-979-16363-0-8)
3. Atok, R.M. and Suhartono, “Model Selection in Neural Networks for Calibration by using Incremental Contribution Inference”, Proceeding of the International Conference on Mathematics and Statistics (ICOMS), Bandung Islamic University, Bandung, July 2006, pp. 225-228.
(ISBN: 978-979-16363-0-8)
4. Suhartono and Subanar, “The Optimal Determination of Space Weight in GSTAR Model by using Crosscorrelation Inference”, Proceeding of The 2nd IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Universiti Sains Malaysia, June 2006.
5. Subanar and Suhartono, “Model Selection in Neural Networks by using Inference of R2 incremental and Principal Component Analysis for Time Series Forecasting”, Presented at The 2nd IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Universiti Sains Malaysia, June 2006.
6. Suhartono and Subanar, “Modeling of Financial Data by Using Feed-forward Neural Networks”, Proceeding of the International Conference on Applied Mathematics (ICAM05), ITB, Bandung, August 2005.
7. Suhartono, Subanar and Guritno, S., “The Impact of Data Preproces-sing on Feedforward Neural Networks Model For Forecasting Trend and Seasonal Time Series”, Proceeding of the International Conference on Applied Mathematics (ICAM05), ITB, Bandung, August 2005.
8. Subanar and Suhartono, “Monte Carlo Simulation Study of The Neural Network Linearity Test for Time Series”, Proceeding of the Fourth Asian Mathematical Conference (AMC2005), National University of Singapore, 20-23 July 2005.
9. Suhartono, Subanar and Rezeki, S., “Feedforward Neural Networks Model for Forecasting Trend and Seasonal Time Series”, Proceeding of The 1st IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia, 13-15 June 2005, pp. 425-434. (ISBN: 979 458 230 - 1)
10. Suhartono, Rezeki, S., Subanar and Guritno, S., “Optimization of Backpropagation Algorithm of Feedforward Neural Networks for
Daftar Riwayat Hidup 200
Regression and Time Series Modeling”, Proceeding of The 1st IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia, 13-15 June 2005, pp. 415-434. (ISBN: 979 458 230 - 1)
11. Rezeki, S., Subanar, Guritno, S. and Suhartono, “Empirical Study to Compare Backpropagation Learning Optimization Methods for Polychotomous Data”, Proceeding of The 1st IMT-GT Regional Conference on Mathematics, Statistics, and Their Application (IRCMSA), Parapat, Lake Toba, North Sumatera, Indonesia, 13-15 June 2005, pp. 407-414. (ISBN: 979 458 230 - 1)
12. Suhartono and Subanar, “The Neural Network Linearity Test for Time Series Modeling”, Proceeding of the International Conference on Statistics and Mathematics and Its Applications in the Development of Science and Technology, Bandung Islamic University, Bandung, 4-6 October 2004, pp. 217-222. (ISBN: 979-99168-0-1)
§ Seminar Nasional 1. Suhartono dan Atok, R.M., “Pemilihan bobot lokasi yang optimal pada
model GSTAR”, Prosiding Konferensi Nasional Matematika XIII, Universitas Negeri Semarang, 24-27 Juli 2006, hal. 571-580. (ISBN: 979-704-457-2)
2. Suhartono dan Atok, R.M., “Perbandingan antara model VARIMA dan GSTAR untuk peramalan data deret waktu dan lokasi”, Prosiding Seminar Nasional Statistika VII, ITS, Surabaya, 2005.
3. Suhartono, Subanar dan Guritno, S., “Uji Linearitas untuk Deteksi Hubungan Nonlinear pada Model Regresi”, Prosiding Seminar Nasional Matematika dan Informatika, Universitas Sebelas Maret, Surakarta, 7 Mei 2005, hal. 90-99. (ISBN: 979-99529-0-5)
4. Suhartono dan Putra, I.N.A.W.W., “Dampak Tragedi Bom Bali terhadap Tingkat Hunian Kamar Hotel Berbintang Lima di Bali (Studi Aplikasi Model Intervensi pada Sektor Pariwisata)”, Prosiding Konferensi Nasional Matematika XII, Universitas Udayana, Bali, 23-27 Juli 2004, hal. 532-542. (ISBN: 979-99592-0-9)
5. Zuhdi, A.Y. dan Suhartono, “Manfaat Penggunaan Diagram Venn dalam Pembelajaran Model Regresi dan Autoregresi”, Prosiding Konferensi Nasional Matematika XII, Universitas Udayana, Bali, 23-27 Juli 2004, hal. 532-542. (ISBN: 979-99592-0-9)