bab ii tinjauan pustaka ii.1 pengolahan data dan … · matrik keanggotaan u secara iteratif dengan...

17
Bab II Tinjauan Pustaka Bab ini menjelaskan tinjauan pustakan yang dipergunakan dalam pelaksanaan analisis dan perancangan perangkat lunak pendukung keputusan estimasi biaya pada IKM manufaktur. II.1 Pengolahan Data dan Knowledge Discovery in Database (KDD) Pengolahan data dapat dikategorikan menjadi dua, yaitu: On Line Transaction Processing (OLTP) dan On Line Analytical Processing (OLAP). OLTP merupakan pengolahan data operasional, karena itu data yang dipergunakan adalah data pada masa kini. Pada masa datang, data yang dihasilkan pada masa kini akan memasuki masa kadaluwarsa dan disimpan terpisah dari data operasional dan disebut sebagai data warehouse (gudang data). Menurut Han (2001), data warehouse adalah sebuah database yang dipergunakan untuk keperluan pendukung keputusan dan dikelola secara terpisah dari database operasional. Data warehouse mempunyai sifat: 1. subject oriented, karena diorganisasi berdasarkan subjek, seperti data pelanggan, data produk, dsb 2. terintegrasi, karena dibangun dari beberapa sumber data yang beragam seperti database relasional, file, dan bentuk data lain sehingga memerlukan teknik data cleaning dan data integration untuk memastikan konsistensi penamaan, pengukuran atribut, dsb. 3. time-variant, horizon data jauh lebih lama daripada data operasional, misalnya data-data dalam kurun waktu 5-10 tahun. 4. non volatile, karena tidak terjadi perubahan data.

Upload: ngomien

Post on 31-Aug-2018

216 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

Bab II Tinjauan Pustaka

Bab ini menjelaskan tinjauan pustakan yang dipergunakan dalam pelaksanaan

analisis dan perancangan perangkat lunak pendukung keputusan estimasi biaya

pada IKM manufaktur.

II.1 Pengolahan Data dan Knowledge Discovery in Database

(KDD)

Pengolahan data dapat dikategorikan menjadi dua, yaitu: On Line Transaction

Processing (OLTP) dan On Line Analytical Processing (OLAP). OLTP

merupakan pengolahan data operasional, karena itu data yang dipergunakan

adalah data pada masa kini. Pada masa datang, data yang dihasilkan pada masa

kini akan memasuki masa kadaluwarsa dan disimpan terpisah dari data

operasional dan disebut sebagai data warehouse (gudang data).

Menurut Han (2001), data warehouse adalah sebuah database yang dipergunakan

untuk keperluan pendukung keputusan dan dikelola secara terpisah dari database

operasional. Data warehouse mempunyai sifat:

1. subject oriented, karena diorganisasi berdasarkan subjek, seperti data

pelanggan, data produk, dsb

2. terintegrasi, karena dibangun dari beberapa sumber data yang beragam

seperti database relasional, file, dan bentuk data lain sehingga memerlukan

teknik data cleaning dan data integration untuk memastikan konsistensi

penamaan, pengukuran atribut, dsb.

3. time-variant, horizon data jauh lebih lama daripada data operasional,

misalnya data-data dalam kurun waktu 5-10 tahun.

4. non volatile, karena tidak terjadi perubahan data.

Page 2: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

Karena data warehouse dapat terdiri dari beberapa bentuk sumber data, maka data

warehouse dimodelkan dalam bentuk data multidimensi yang dilihat sebagai data

cube. Data cube terdiri dari:

1. data dimensi, yaitu perspektif pengguna terhadap data

2. data fakta, yaitu nilai data

Gambar II-1Siklus Knowledge Discovery

Data warehouse seringkali mengandung informasi yang dapat dipergunakan

sebagai pendukung keputusan dalam siklus Knowledge Discovery in Database

(KDD). KDD adalah istilah umum yang dipakai untuk seluruh metode yang

bertujuan untuk mengetahui hubungan diantara data yang diobservasi. KDD

terdiri dari banyak tahapan yang dimulai dari identifikasi tujuan bisnis sampai

dengan penerapan aturan pada permasalahan bisnis. Secara umum, tahapan KDD

disajikan dalam Gambar II-1. Salah satu langkah dalam KDD adalah Data

Mining, yaitu ekstrasi pengetahuan dari data dalam jumlah besar (Han, 2001).

Weiss (1998) membagi data mining menjadi dua kategori, yaitu: (a) prediction

(classification, regression dan time series) dan (b) knowledge discovery

(clustering, association rule, summarization, text mining dan visualization).

Menurut Betts (2003) penerapan data mining saat ini sedang dan akan

Page 3: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

berkembang secara luas. Penerapan data mining sangat beragam seperti contoh

dalam Tabel II-1.

Tabel II-1 Contoh Penerapan Data Mining

Aplikasi Data Masukan Data Keluaran

Business Intelligence Riwayat pembelian konsumen,

informasi kartu kredit

Produk-produk yang sering dibeli

oleh konsumen secara bersamaan

Collaborative Filtering Rating film box office, rating

novel terlaris

Rekomendasi film untuk ditonton

atau buku untuk dibaca

Network Intrusion

Detection

Data TCPDump atau log

jaringan komputer

Kejadian anomali dalam setiap

node jaringan komputer

Web Search Query oleh pengguna web Ranking halaman web

Diagnosis Medis Riwayat penyakit pasien, data

demografi

Diagonis status kesehatan pasien

Perkiraan Cuaca Data barometer, curah hujan,

pergerakan angin dan awan, data

geografis

Prediksi status cuaca pada sebuah

daerah

Beberapa framework penerapan data mining telah dikembangkan berdasarkan

proses bisnis industri dan bisnis. Framework tersebut dikembangkan karena

kegiatan data mining semakin kompleks dengan melibatkan banyak data,

kepakaran yang bervariasi ataupun lingkungan bisnis yang beragam. Karena itu,

frameworks data mining diharapkan dapat dijadikan sebagai panduan untuk proses

koleksi data, analisis, diseminasi hasil data mining dan pengembangan dari

penerapan data mining tersebut. Beberapa framework yang berkembang saat ini

adalah:

1. CRISP (Cross Industrial Standard Process for Data Mining). Framework

ini diusulkan oleh konsorsium Uni Eropa. Secara umum CRISP terdiri dari

tahapan pemahaman pada proses bisnis dan data, persiapan data,

pemodelan, evaluasi dan penerapan.

2. DMAIC (Define-Measure-Analyze-Improve-Control). Framework ini

berdasarkan pada metodologi Six-Sigma yang ditujukan untuk

mengeliminasi cacat, pemborosan, berorientasi pada pengendalian kualitas

Page 4: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

dalam kegiatan manufaktur, industri jasa, manajemen dan aktivitas

lainnya.

3. SEMMA (Sample-Explore-Modify-Model-Assess). Framework ini

dikembangkan oleh SAS (Statistical Analysis Sistem) Institute.

Framework ini mempunyai tahapan yang mirip dengan Six-Sigma.

II.2 Pengolahan Awal Data (Data Preprocessing)

Sub bab ini membahas tentang kebutuhan data preprocessing dalam siklus KDD

beserta teknik-teknik yang biasanya dipergunakan.

Data mentah tidak selalu mempunyai format yang sesuai untuk keperluan analisis.

Data harus diolah terlebih dahulu dan diubah ke dalam bentuk yang

memungkinkan untuk proses data mining. Penyiapan data sangat penting karena

setiap teknik data mining berperilaku berbeda terhadap proses penyiapan data dan

teknik transformasi yang berbeda. Menurut Han (2001), penyiapan data dapat

dikategorikan sebagai berikut:

1. Data cleaning, terdiri dari kegiatan untuk menghilangkan noise dan

mengelola missing value. Data cleaning terdiri dari kegiatan sebagai

berikut:

a. Penanganan terhadap nilai kosong. Dalam penyiapan data, masalah

sering muncul pada saat ditemukan sebuah nilai kosong. Nilai

kosong dalam sebuah variabel adalah data yang sebenarnya ada,

namun tidak tercantum dalam data set dikarenakan kesalahan

pengisian data. Beberapa teknik data mining akan mengabaikan

atau memberikan nilai secara otomatis terhadap nilai kosong,

namun hal ini mengakibatkan pelaku data mining tidak dapat

mengendalikan keseluruhan proses data mining. Terdapat beberapa

cara untuk menangani nilai kosong, diantaranya dengan cara

mengisi nilai rata-rata data pada nilai kosong dengan Persamaan

II-1.

Page 5: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

n

xn

ii∑

== 1µ

Persamaan II-1

Dimana µ adalah nilai rata-rata dan xi adalah data dalam

sebuah atribut.

b. Penanganan noise, yaitu random error dari variabel yang dihitung.

Dapat dilakukan dengan median filtering. Metode ini dipergunakan

pada time-series data set untuk menghilangkan outliers dan data

yang tidak baik. Metode ini termasuk non linear filtering yang

ditujukan untuk tetap mempertahankan fitur data. Dalam sebuah

data serial, teknik ini mengambil nilai dari data tengah dalam

selang data tertentu.

2. Data integration and transformation, yaitu integrasi dari beberapa sumber

data berupa database, file atau data cube. Dalam kegiatan ini juga

dilakukan transformasi data mentah menjadi data yang siap untuk di-

mining. Kegiatan yang termasuk dalam penyiapan data ini terdiri dari:

a. Data Integration, terdiri dari kegiatan penanganan terhadap

permasalahan yang muncul pada saat identifikasi entitas. Karena

data terdiri dari berbagai sumber data, maka redundansi di antara

data harus dihindari. Untuk itu dipergunakan teknik seperti analisis

korelasi di antara data.

b. Data Transformation, yaitu pengubahan bentuk data agar siap

untuk diolah, meliputi smoothing, normalisasi, generalisasi,

konstruksi atribut dan agregasi data. Normalisasi/standardisasi

dipergunakan untuk mengubah nilai data dalam sebuah data set

sehingga data set mempunyai nilai tengah nol dan variansi 1.

Normalisasi dilakukan dengan mengurangi setiap data dalam

sebuah atribut dengan nilai rata-rata atribut dan membaginya

dengan standar deviasi atribut tersebut dengan mempergunakan

Persamaan II-2.

Page 6: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

σµ−

= ii

xSC Persamaan II-2

Dimana SCi merupakan column scaling untuk sebuah atribut.

3. Data reduction, yaitu pengurangan representasi data, dapat berupa

agregasi data, pengurangan dimensi dan kompresi data. Pada saat data set

memiliki lebih dari jumlah variabel yang dapat dipergunakan untuk

membangun model, diperlukan seleksi terhadap kandidat variabel untuk

dipergunakan untuk keperluan data mining.

4. Data discretization, yaitu pengurangan jumlah nilai pada atribut kontigu,

misalnya dengan penggunaan interval.

II.3 Clustering dengan Metode K-Means

Sub bab ini menjelaskan tentang teknik pengelompokan data dengan K-means

yang dipergunakan dalam proses perancangan sistem pendukung keputusan

estimasi biaya produksi di IKM manufaktur.

Clustering adalah pembagian data menjadi kelompok objek yang mirip, yang

disebut cluster. Sebuah cluster terdiri dari objek-objek yang mirip dan berbeda

terhadap objek dari cluster lain. Dari perspektif machine learning, cluster

merepresentasikan pola yang tersembunyi di dalam data, sehingga pencarian

cluster merupakan proses unsupervised learning. Menurut Berkhin (2002), teknik

clustering dapat diklasifikasikan menjadi hierarchical method (agglomerative dan

disisive), partitioning method (probabilistic method, k-medoids method, k-means

method, desity-based method), grid method, dan teknik lainnya.

Hierarchical clustering membagi cluster secara hirarki, sehingga setiap node

cluster dapat mempunyai anak ataupun sibling cluster. Berdasarkan proses

pembentukan cluster, hierarchical clustering dapat dibagi menjadi agglomerative

(bottom-up) dan disisive (top-down). Agglomerative method dimulai dengan

membuat satu buah cluster untuk setiap objek data dan secara rekursif melebur

dua atau lebih cluster tersebut menjadi cluster yang sesuai. Sebaliknya, disisive

Page 7: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

method dimulai dari membuat satu buah cluster yang berisi seluruh objek data

dan kemudian secara rekursif membagi cluster tersebut menjadi sejumlah cluster

yang sesuai. Proses rekursif pada agglomerative dan disisive method berlanjut

sampai terpenuhinya stopping criteria, yang biasanya merupakan jumlah k cluster

yang diinginkan. Contoh teknik dalam hierarchical clustering adalah: CURE,

Chameleon dan COBWEB

Partitioning method membagi data menjadi k cluster, dan kemudian melakukan

proses iterative penempatan objek data kepada masing-masing cluster. Relokasi

objek data di antara masing-masing cluster menghasilkan cluster yang dinamis.

Objek data yang sudah dialokasikan pada sebuah cluster dapat direlokasi kepada

cluster lain sehingga optimal. Contoh teknik partitioning method adalah k-

medoids method, k-means method.

Menurut Murtini (2002), clustering adalah proses pembagian atau pengelompokan

dari sekumpulan data yang tidak berlabel menjadi sejumlah kelompok data

(cluster) dimana pola yang mirip akan dikelompokkan ke dalam cluster yang

sama. Setiap data dapat direpresentasikan oleh sebuah vektor yang mempunyai

banyak parameter atau atribut. Dasar dari teknik clustering adalah penghitungan

kemiripan atau jarak diantara data-data tersebut. Untuk pola dengan data

kualitatif, penghitungan jarak dilakukan dengan matching-type. Sedangkan pada

pola dengan data kuantitatif, dipergunakan penghitungan distance-type. Jarak

Euclidian atau Mahalanhois biasanya dipergunakan untuk menghitung jarak di

antara data-data dalam teknik clustering.

Dalam tesis ini, teknik k-means dipergunakan sebagai pengolahan awal terhadap

data historis rancangan produk dengan pertimbangan kemudahan perhitungan dan

kemudahan visualisasi untuk keperluan interpretasi. K-means membagi koleksi

dari n vector xj, j=1,..,n menjadi c kelompok G, i=1,..,c dan menentukan pusat

cluster dalam setiap kelompok dengan berdasarkan cost function yang minimum.

Jika jarak Euclidian dipergunakan untuk mengukur ketidaksamaan dari sebuah

Page 8: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

vektor xk dalam kelompok j terhadap pusat cluster adalah ci, maka cost function

didefinisikan seperti dalam Persamaan II-3.

∑ ∑∑= ∈=

−==

c

i Gxkiki

c

i ik

cxJJ1 ,

2

1

Persamaan II-3

dimana ∑∈

−ik Gxk

ik cx,

2 adalah cost function dalam kelompok i.

Karena itu nilai Ji bergantung pada properti geometri dari Gi dan lokasi dari ci.

Kelompok cluster didefinisikan oleh matrik keanggotaan U yang bernilai biner

dan berukuran c x n, dimana Uij bernilai 1 jika data j pada point xj merupakan

anggota dari kelompok i dan bernilai 0 untuk kondisi sebaliknya. Pada saat titik

pusat cluster ci sudah tetap, nilai minimum Uij pada Persamaan II-3 dapat

diturunkan seperti pada Persamaan II-4.

≠−≤−

=lainnya

ikcxcxjikaU kjijij

,0

,,122

Persamaan II-4

Pada Persamaan II-4, xj dimiliki oleh kelompok i jika ci adalah titik pusat cluster

terdekat di antara titik pusat cluster lainnya.

Persamaan II-4 menyatakan bahwa xj dimiliki oleh cluster i jika ci merupakan titik

pusat cluster terdekat diantara titik pusat cluster lainnya. Karena sebuah data

hanya dapat berada pada satu buah cluster, maka keanggotaan matrik U

mempunyai properti ∑=

=∀=c

ijij nU

1,..,1,1 dan ∑∑

= =

=c

i

n

jij nU

1 1. Jika Uij tetap, maka

nilai optimal titik pusat ci yang meminimasi Persamaan II-3 adalah nilai rata-rata

dari seluruh vektor dalam kelompok i disajikan dalam Persamaan II-5.

∑∈

=ik Gxk

ki

i xG

c,

1 Persamaan II-5

Page 9: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

dimana |Gi| adalah ukuran dari Gi atau ∑=

=n

jiji UG

1

Pada data xi, i=1,..,n algoritma k-means menentukan titik pusat cluster ci dan

matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut:

1. inisialisasi titik pusat cluster ci, i=1,..,c. Biasanya dilakukan secara

random dengan memilih titik c di antara data

2. tentukan matrik keanggotaan U dengan Persamaan II-4

3. hitung cost function dengan Persamaan II-3. Perhitungan dihentikan pada

saat cost function bernilai lebih rendah dibandingkan nilai toleransi

4. ubah nilai titik tengah cluster dengan Persamaan II-5 dan ulangi langkah 2

Berdasarkan algoritma k-means, inisialisasi titik pusat cluster secara random

sangat mempengaruhi hasil proses clustering. Menurut Deelers (2007), perbaikan

proses inisialisasi awal titik pusat cluster dapat dilakukan dengan cara melakukan

partisi data berdasar pada atribut yang mempunyai variansi tertinggi. Algoritma

penentuan titik awal cluster yang dipergunakan oleh Deelers (2007) adalah

sebagai berikut:

1. proses dimulai dengan menentukan sel c, yaitu sel yang memuat seluruh

data

2. nilai setiap atribut data dari sel c diurutkan mulai dari yang terkecil dan

disajikan dalam bentuk link list untuk setiap atribut

3. hitung variansi dari setiap atribut dari sel c, kemudian tentukan sebuah

atribut yang memiliki variansi terbesar sebagai sumbu partisi

4. hitung kuadrat dari jarak Euclidian di antara data yang terurut pada sumbu

dengan variansi terbesar 21 ),( += jjj ccdD , setelah itu hitung

∑=

=i

jji Ddsum

1

.

5. hitung jarak titik pusat sel c:

Page 10: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

n

dsumstcentroidDi

n

ii∑

== 1 , dimana dsumi adalah jumlah dari jarak diantara

data yang berurutan

6. Bagi sel c menjadi 2 partisi. Batas partisi adalah bidang datar yang

berpotongan dengan sumbu dan melalui sebuah titik m dimana nilai dsumi

adalah sama atau mendekati nilai centroidDist.

7. Hitung error dari masing-masing partisi, tentukan partisi dengan

maksimum error.

8. lakukan langkah 3 sampai dengan 7 secara berulang sampai didapatkan k

partisi sesuai dengan jumlah k dalam partisi k-means yang diinginkan

Dengan penggunaan k-means dengan modifikasi pada penentuan titik awal

cluster, diharapkan dapat diperoleh kelompok-kelompok produk dengan fitur

geometri dan fitur pemesinan yang mirip dengan tingkat kesalahan clustering

yang cukup baik.

II.4 Prediction dengan MLR

Sub bab ini menjelaskan tentang satu teknik prediksi, yaitu teknik multiple linear

regression yang dipergunakan dalam proses perancangan sistem pendukung

keputusan biaya produksi pada IKM manufaktur.

Menurut Fayyad (1996), tujuan akhir dari data mining adalah untuk membuat

prediksi terhadap data baru berdasarkan data historis, karena itu predictive data

mining banyak diterapkan dalam berbagai aktivitas bisnis. Tahapan predictive

data mining dijelaskan pada Gambar II-2, yaitu dimulai dari tahap persiapan data,

pelaksanaan predictive data mining dan penerapan pada permasalahan nyata.

Terdapat beberapa teknik prediksi, di antaranya adalah regresi, neural network,

decision tree, dsb. Regresi adalah relasi di antara nilai x yang dipilih dan nilai

observasi y di mana nilai y dapat diprediksi berdasarkan nilai x. Regresi linier

Page 11: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

merupakan metode prediktif yang didasarkan pada hubungan di antara variabel

masukan dan keluaran. Sebuah regresi linier mempergunakan persamaan dinamik

dalam sebuah garis dimana y = mx + c (dimana m merupakan kemiringan, c

merupakan konstanta pada sumbu y, dan x merupakan variabel yang dipergunakan

untuk menghitung y). Dalam kasus model regresi linier, terdapat kemungkinan

terjadinya error sehingga rumus dapat ditulis sebagai y=g(x) + e, di mana g(x)

adalah mx +c dan e adalah error. Error menggambarkan selisih antara nilai

prediksi dan nilai aktual.

Gambar II-2 Tahapan Prediction

Kasus yang diselesaikan dengan regresi linier seringkali didasarkan pada nilai x

dan y yang sudah diketahui, dan ditujukan untuk mengetahui hubungan antara x

dan y. Terminologi linier diartikan bahwa koefisien dari variabel independen

Page 12: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

adalah linier. Terdapat pendapat yang menyatakan bahwa model polinomial

bukan merupakan kasus linieritas, namun dalam statistik hanya variabel dependen

(parameter) yang dipergunakan dalam mengklasifikasikan linieritas dalam sebuah

model. Jika sebuah parameter adalah tidak linier, maka model menjadi tidak

linier.

Dalam tesis ini dipergunakan teknik MLR untuk menentukan rumus estimasi

biaya produksi untuk setiap kelompok produk yang mempunyai kemiripan fitur

geometri dan fitur pemesinan. Dalam MLR terdapat variable dependen Y dan

sejumlah variable independen x1, x2, . . . , xp. Tujuan dari MLR adalah untuk

memperkirakan nilai dari variable dependen dengan mempergunakan fungsi linier

dari variable independen. Model dari MLR disajikan dalam Persamaan II-6.

Y = β0 + β1x1 + β2x2 + · · · + βpxp + ε, Persamaan II-6

Pada Persamaan II-6, ε adalah “noise”, yang terdistribusi secara normal dengan

nilai rata-rata sama dengan nol dan standard deviasi σ yang nilainya tidak

diketahui. Nilai koefisien β0, β1, β2, . . . , βp juga tidak diketahui sehingga MLR

dipergunakan untuk menghitung nilai-nilai yang tidak diketahui tersebut dari data

yang tersedia.

Data hasil observasi terdiri dari n baris yang bernilai yi, xi1, xi2, . . . , xip; i = 1, 2, . .

. , n. Nilai estimasi koefisien β dihitung sehingga meminimasi Residual Sum of

Sqaure, yaitu jumlah kuadrat dari selisih antara nilai prediksi dengan data yang

dirumuskan seperti Persamaan II-7.

( )∑∑=

−−−−==n

ipipiii xxyRSS

1

2210

2 ... βββε Persamaan II-7

Nilai minimum dari RSS diperoleh dengan cara membuat derivasi RSS terhadap

setiap koefisien β seperti pada Persamaan II-8.

Page 13: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

p

RSSRSSRSSRSSββββ∂∂∂∂ ,.......,,,

210

Persamaan II-8

Derivasi RSS seperti pada Persamaan II-8 akan menghasilkan sejumlah p+1

persamaan dengan jumlah variabel yang tidak diketahui. Dengan mempergunakan

seluruh p+1 persamaan, maka dapat diketahui p+1 variabel yang tidak diketahui,

yaitu β0, β1, β2, . . . , βp. Jika β0, β1, β2, . . . , βp diketahui, maka Persamaan II-6

dapat diselesaikan dan menghasilkan koefisien regresi.

Pada saat variabel dependen berjumlah banyak, penyelesaian MLR membutuhkan

waktu yang cukup lama. Karena itu penulisan dengan notasi matrik dilakukan

agar penyelesaian MLR dapat dilakukan lebih cepat. Persamaan II-6 dapat

dituliskan dalam notasi matrik seperti Persamaan II-9.

εβ += xY Persamaan II-9

dimana

=

3

2

1

Y

YY

YM

,

=

3

2

1

β

ββ

βM

,

=

3

2

1

β

εε

εM

dan

=

knnn

k

k

xxx

xxxxxx

x

,2,,

,22,21,2

,12,11,1

11

11

L

MMMM

L

L

M

Koefisien regresi β dapat dihitung dengan Persamaan II-10.

( ) yxxx TT 1−=β Persamaan II-10

dimana xT adalah matriks transpose dari x dan -1 menyatakan inversi

sebuah matrik.

Dalam prediksi, kemampuan sebuah model prediksi seperti pada Persamaan II-6

diukur berdasarkan deviasi hasil prediksi terhadap nilai aktual. Terdapat banyak

teknik yang dapat dipergunakan untuk menggambarkan kemampuan sebuah

model prediksi di antaranya adalah: Mean Absolute Error (MAE), Mean Square

Page 14: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

Error (MSE), Root Mean Square Error (RMSE), Mean Absolute Percentage

Error (MAPE), koefisien efisiensi dan teknik-teknik lainnya.

MAPE dapat didefinisikan sebagai rata-rata persentase kesalahan absolut dari

sebuah nilai prediksi terhadap nilai aktual. Nilai absolut dipergunakan dalam

MAPE karena metode ini menganggap besaran kesalahan lebih berpengaruh

dibandingkan arah kesalahan itu sendiri. MAPE dapat ditentukan dengan

mempergunakan Persamaan II-11.

∑=

−=

n

t t

tt

AFA

nMAPE

1

100 Persamaan II-11

Berdasarkan nilai MAPE, dapat ditentukan akurasi sebuah model prediksi.

Akurasi sebuah model prediksi akan semakin meningkat jika deviasi terhadap

nilai aktual semakin kecil, karena itu akurasi prediksi didefinisikan seperti

Persamaan II-12.

MAPEAkurasi −= 1 Persamaan II-12

II.5 Cost Estimation dalam Industri Manufaktur

Sub bab ini menjelaskan tentang biaya produksi manufaktur dan metode estimasi

biaya produksi yang dipergunakan pada IKM manufaktur. Kendala penerapan,

kelebihan dan kekurangan masing-masing metode estimasi biaya produksi juga

dibahas dalam sub bab ini.

Manufaktur adalah serangkaian aktifitas dan operasi yang melibatkan kegiatan

perancangan, pemilihan material, perencanaan produksi, proses produksi dan

penjaminan kualitas produk (Chisholm, 1990 dalam Brinke, 2002). Biaya, secara

umum dapat didefinisikan sebagai sumber daya ekonomi yang diperlukan untuk

Page 15: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

menyelesaikan aktifitas pekerjaan dan biasanya dinyatakan dalam satuan mata

uang.

Dalam manufaktur, perkiraan biaya adalah prosedur untuk memperkirakan biaya

manufaktur dari sebuah produk sebelum seluruh tahapan dalam siklus

pengembangan produk dilakukan. Long (2000) mengelompokkan siklus

pengembangan produk menjadi 5 (lima) tahap, yaitu: konsepsi, pengembangan,

produksi, operasi dan purna jual seperti pada Tabel II-2. Pada awal daur hidup

produk, informasi yang tersedia sangat terbatas dan akan semakin lengkap seiring

pertambahan tahapan daur hidup produk tersebut. Berdasarkan ketersediaan

informasi, metode perkiraan biaya yang sesuai untuk tahap konsepsi adalah

metode analogi dan parametrik.

Tabel II-2 Penerapan Metode Perkiraan Biaya dalam Daur Hidup Produk (Long, 2000)

Tahap Analitis Analogi Parametrik Konsepsi ▲ ▲ Pengembangan ▲ ▲ ▲ Produksi ▲ ▲ Operasi ▲ ▲ Purna Jual ▲ ▲ ▲

Kegiatan order response merupakan salah satu kegiatan dalam tahap konsepsi,

dimana informasi detil produk belum tersedia. Metode perkiraan biaya produksi

yang sesuai dalam tahap ini adalah metode analogi dan parametrik seperti pada

Tabel II-2 Penerapan Metode Perkiraan Biaya dalam Daur Hidup Produk (Long,

2000)Tabel II-2.

Gambar II-3 Cost estimation paradox (Bode, 1998)

Page 16: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

Besaran biaya dalam manufaktur yang diperlukan untuk menyelesaikan sebuah

produk dapat diperkirakan lebih akurat pada saat informasi detil produk sudah

tersedia. Dalam tahap perancangan produk, 70% informasi detil produk sudah

tersedia sehingga diharapkan perkiraan biaya yang dilakukan pada tahap ini lebih

akurat. Namun demikian, pada tahap perancangan produk, informasi tentang detil

informasi produk belum tersedia, sehingga sulit untuk membuat perkiraan biaya

pada tahap ini. Fenomena ini disebut sebagai cost estimation paradox seperti

pada Gambar II-3.

Menurut Weustink (2000) dalam Brinke 2002, perkiraan biaya yang dilakukan

berdasarkan pada rancangan produk ditentukan oleh cost driver yang saling

terkait, terdiri dari geometri, material, proses produksi dan perencanaan produksi.

Pada tahap perancangan, cost driver yang sangat berpengaruh pada perkiraan

biaya adalah geometri dan material.

Secara umum terdapat 3 metode dalam penentuan cost estimation pada industri

manufaktur (Camargo, 2003):

1. Metode analitis, yaitu perkiraan biaya berdasarkan data perancangan.

Rancangan produk dirinci menjadi bill of material dan proses-proses yang

dibutuhkan untuk menyelesaikan produk tersebut. Metode ini sesuai untuk

diterapkan pada tahap produksi pengembangan sebuah produk baru.

Kelemahan dari metode ini adalah a) hanya dapat diterapkan jika data

rancangan dan proses produksi sudah diketahui b) membutuhkan data dan

sumber daya yang besar.

2. Metode analogi, yaitu perkiraan biaya berdasarkan kemiripan produk

terhadap produk sejenis yang pernah diproduksi. Aspek kemiripan yang

dibandingkan dalam metode ini di antaranya adalah kemiripan fungsi,

kemiripan fitur dan kemiripan morfologi fisik. Metode ini menuntut

kepakaran dan pengalaman dalam melakukan penentuan tingkat kemiripan

antar produk.

Page 17: Bab II Tinjauan Pustaka II.1 Pengolahan Data dan … · matrik keanggotaan U secara iteratif dengan langkah-langkah sebagai berikut: 1. ... partisi data berdasar pada atribut yang

3. Metode parametrik, yaitu metode dengan perkiraan biaya dengan

pemodelan matematis dari sejumlah Cost Estimation Relationships (CER),

aturan dasar (ground rules), asumsi-asumsi, variabel dan konstanta untuk

mendeskripsikan dan mendefinisikan kondisi tertentu. Metode ini dapat

dilakukan dengan cepat, namun menuntut pemutakhiran model matematis

sesuai perkembangan variasi produk. Metode ini sangat berguna terutama

pada tahap awal perancangan produk dimana informasi detil belum

tersedia. CER merupakan ekspresi matematis yang memberikan biaya

produksi sebagai fungsi dari satu atau lebih variabel cost driver. Kelebihan

penggunaan CER adalah: memungkinkan estimasi yang cepat tanpa perlu

informasi detil dan CER dilakukan berdasarkan ongkos produksi historis

yang nyata.

Dengan perkembangan teknologi pengelompokan data, metode analogi dapat

dilakukan dengan mempergunakan teknik K-Means sehingga ketergantungan

terhadap pakar dapat dikurangi. Teknik K-Means mengelompokkan data

kuantitatif produk ke dalam kelompok produk yang mempunyai kemiripan tinggi

dan berbeda terhadap kelompok produk yang lain.