4) bayesian decision teory

Klassifikasi I

Bayesian Decision TheoryPengenalan Pola/Pattern RecognitionDasar Pengenalan Pola 2Teori Keputusan BayesKeputusan didukung probabilitas posteriorKeputusan mempertimbangkan Risk/CostFase Training & Testing DataUnivariate Normal DistributionMultivariate Normal DistributionLatihan & TugasProsedur Keputusan BayesProsedur pengenalan pola dan pengambilan keputusansubjectsFeatures xObservables X Action aInner belief wX --- semua data observasi menggunakan sensors dan instruments yang tersediax --- merupakan himpunan fitur yang dipilih dari komponen X, atau fungsi linier dari X.w --- adalah inner belief/perception tentang subject dari kelas/group/kategori. --- adalah aksi/keputusan yang kita ambil untuk x.

Dari prosedur tersebut didapatkan definisi dari 3 ruang vektor sebagai berikut:

ContohKlasifikasi IkanX=I adalah Image/ citra ikan,x =(brightness, length, fin, .)

w merupakan tingkat kepercayaan kita bahwa tipe ikan tersebut adalah Wc={sea bass, salmon, trout, }a merupakan keputusan tipe ikan, pada kasus ini Wc= Wa Wa ={sea bass, salmon, trout, }

Diagnosis MedisX= semua hasil test medis, citra hasil scanx =(blood pressure, glucose level, cough, x-ray.)

w merupakan tipe sakit yang diderita Wc={Flu, cold, TB, pneumonia, lung cancer}

a merupakan keputusan untuk penanganan yang diberikan pada pasien, Wa ={Tylenol, Hospitalize, }

Fokus MetodePada teori keputusan Bayes, kita perhatikan tiga langkah terakhir yang mengasumsikan bahwa observasi telah dilakukan dan fitur telah dipilih sebelumnya.subjectsFeatures xObservables XDecision aInner belief wcontrolsensorsselectingInformative featuresstatisticalinferencerisk/costminimizationKeputusan BayesKeputusan akan dibuat ketika semua distribusi dari probabilitas dari data diketahui, Sehingga keputusan akan menjadi optimal ketika distribusi data diketahui.Misalkan untuk kasus dua kelas yang telah terdefinisi : w1 dan w2 Probabilitas Prior untuk data observasi baru yang belum diketahui didefiniskan dengan : P(w1) : probabilitas observasi data baru dari class 1 P(w2) : probabilitas observasi data baru dari class 2P(w1 ) + P(w2 ) = 1Probabilitas tersebut mencerminkan pengetahuan sebelumnya.Aturan keputusan untuk objek baru (x) :Objek x akan diklasifikasikan sebagai class 1 Jika P(w1 ) > P(w2 ) dengan syarat bahwa tidak ada fitur yang bisa digali dari objek baru tersebut.Teori Keputusan BayesTingkat kepercayaan terhadap class w dihitung menggunakanaturan Bayes :

Tingkat resiko dihitung dengan :

Features xDecision a(x)Inner belief p(w|x)statisticalInferencerisk/costminimizationTwo probability tables: a). Prior p(w) b). Likelihood p(x|w) A risk/cost function (is a two-way table) l(a | w)

Teori Keputusan BayesKita mendefiniskan fitur untuk setiap objek dengan :P(x| w1) & P(x| w2) : class-specific density (Probabilitas kodisional objek (x) terhadap kelas (wj) / Likelihood)Aturan Bayes:

Aturan KeputusanAturan keputusan merupakan fungsi mapping dari ruang fitur ke himpunan keputusan yang akan diambil

Keputusan yang acak (random) tidak akan optimalKeputusan yang dibuat berdasarkan fungsi yang meminimalkan resiko / average cost

Fungsi tersebut akan minimal ketika keputusan yang kita ambil dibuat untuk meminimalkan cost /resiko untuk setiap instance/data x

Bayessian ErrorPada kasus khusus, seperti klasifikasi ikan, aksi yang diambil adalah klasifikasi yang diasumsikan eror : 0/1

Resiko klasifikasi x ke class ai adalah,

Keputusan optimal adalah memilih class yang memiliki probabilitas posterior maximum

Total resiko untuk aturan keputusan (Bayesian error)

Fase Data TrainingContoh Dataset (Ikan Salmon & Sea Bass) :(Misal hanya menggunakan 1 fitur, yaitu Width) menggunakan konsep Risk/ Cost.

Fase Data TrainingContoh Dataset (Smurf or Troll) :(Misal hanya menggunakan 1 fitur, yaitu Height) menggunakan konsep univariate normal distribution.

Jika Height = 2 , tentukan kelas Creaturenya !HeightCreature2.70Smurf2.52Smurf2.57Smurf2.22Smurf3.16Troll3.58Troll3.16Troll

Fase Data TrainingContoh Dataset (Smurf or Troll) :(Misal hanya menggunakan 1 fitur, yaitu Height) menggunakan konsep univariate normal distribution.Langkah-langkah penyelesaian :Menghitung STD dari trolls dan smurfs.

Fase Data TrainingContoh Dataset (Smurf or Troll) :(Misal hanya menggunakan 1 fitur, yaitu Height) menggunakan konsep univariate normal distribution.Langkah-langkah penyelesaian :2. Menghitung Prob. Likelihood dari trolls dan smurfs.

Fase Data TrainingContoh Dataset (Smurf or Troll) :(Misal hanya menggunakan 1 fitur, yaitu Height) menggunakan konsep univariate normal distribution.Langkah-langkah penyelesaian :Menghitung Prob. Prior dari trolls dan smurfs.

Sehingga didapatkan Prob. Posterior berikut :

danJika P(smurf | 2) > P(troll | 2) maka Height = 2 masuk kelas Smurf. Dan sebaliknya.

Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Teori Peluang Biasa :Contoh : Fitur(R,T,D) : rash (R), temperature (T), dizzy(D). Kelas(C) : 1 atau 0. (Terdapat 40 data training)

Fase Training :(Meringkas data training sesuai dengan frekuensi)

Fase Data TestingJika fiturnya lebih dari satu, maka gunakan :Teori Peluang Biasa :

Jadi x1 masuk kelas C = 1, x2 dan x3 masuk kelas C = 0.Fase Testing :Data uji x1 = (1 1 1) x2 = (1 0 0) x3 = (0 1 0)

Klasifikasi didasarkan pada penghitungan probabilitas posterior. Misalkan :Jika P(C = 1 | X) > 0.5 maka C = 1 Jika tidak, maka C = 0.Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate

Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Contoh :

Jika diketahui Curvatur Chip Ring = 2.81 dan Diameter Chip Ring = 5.46 maka, Tentukan kelas Quality Control Result-nya?CurvatureDiameterQuality Control Result2.956.63Passed2.537.79Passed3.575.65Passed3.575.45Passed3.164.46Not passed2.586.22Not passed2.163.52Not passedFase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Fase Training :

X = features (variables independent) Y = Kelas/ Group (variables dependent)

2. Memisahkan x berdasarkan group :

1. Labeling Dataset :Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Fase Training :

X = features (variables independent) Y = Kelas/ Group (variables dependent)Hitung (Mean Corrected) :(xi minus mean global)3. Hitung i = mean features dari group i dan = mean global

Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Fase Training :

5. Hitung matrik Kovarian group i


Sehingga didapat nilai p(2.81,5.46 | Passed) dan p(2.81,5.46 | Not_passed)

6. Hitung Likelihood dari Curvatur = 2.81 dan Diameter = 5.46 :


Jika p(Passed | 2.81,5.46) > p(Not_passed | 2.81,5.46) , maka Curvatur = 2.81 dan Diameter = 5.46 masuk kelas Passed. Dan sebaliknya.

7. Jadi Prob. Posterior Curvatur = 2.81 dan Diameter = 5.46 adalah sbb :Probabilitas Prior : p(Passed) = 4/7 dan p(Not_passed) = 3/7

Latihan 1Perhatikan grafik distribusi pada proses klasifikasi ikan Sea Bass (2) dan ikan Salmon (1). A1 : Memberikan hasil keputusan bahwa ikan yang diuji coba adalah termasuk kelas ikan Sea Bass. A2 : Memberikan hasil keputusan bahwa ikan yang diuji coba adalah termasuk kelas ikan Salmon. Probabilitas Prior ikan Sea Bass dan Salmon masing-masing P(2) = 2/3 dan P(1) = 1/3. Biaya/Cost jika hasil klasifikasinya adalah ikan salmon, tapi sebenarnya ikan tersebut adalah ikan sea bass sebesar (A2 | 2) = $2, dan Biaya jika hasil klasifikasinya adalah ikan Sea Bass, tapi sebenarnya ikan tersebut adalah Salmon sebesar (A1 | 1) = $1.Tentukan hasil keputusan klasifikasi jika input x = 13, dimana probabilitas likelihoodnya masing-masing P(x | 1) = 0,28 dan P(x | 2) = 0,17 dengan pertimbangan Cost/ Resiko yang ada !

Penyelesaian :Diketahui :1 Kelas Salmon 2 Kelas Sea Bass A1 Decide Input is Sea BassA2 Decide Input is Salmon(A2 | 2) = $2 dan (A1 | 1) = $1

Penyelesaian untuk soal latihan :======================jumlah_fitur =

2

jumlah_data =

3

dataset =

2 3 2 2 3 3

mean_global =

2.3333 2.6667

zero_mean =

-0.3333 0.3333 -0.3333 -0.6667 0.6667 0.3333

matrik_kovarian =

0.6667 0.3333 0.3333 0.6667

EigenVektor =

-0.7071 0.7071 0.7071 0.7071

EigenValue =

0.3333 0 0 1.000025Jawab :

Latihan 1 (Cont.)

(Menghitung Probabilitas Posterior )(Menghitung Risk/Cost)

Melihat nilai biaya resiko dari R(A1 | x) < R(A2 | x) , maka x = 13 masuk kelas Sea Bass.

Keputusan dilihat dari nilai : Penyelesaian untuk soal latihan :======================jumlah_fitur =

2

jumlah_data =

3

dataset =

2 3 2 2 3 3

mean_global =

2.3333 2.6667

zero_mean =

-0.3333 0.3333 -0.3333 -0.6667 0.6667 0.3333

matrik_kovarian =

0.6667 0.3333 0.3333 0.6667

EigenVektor =

-0.7071 0.7071 0.7071 0.7071

EigenValue =

0.3333 0 0 1.000026Latihan IndividuPerhatikan Dataset berikut :

Jika Diameter = 2.1, Tentukan kelasnya dengan mempertimbangan Cost/ Resiko yang ada ! (Gunakan fungsi pdf untuk menghitung likelihoodnya)

1 Kelas Pen 2 Kelas PensilA1 Decide Input is PensilA2 Decide Input is Pen(A2 | 2) = Rp 40000 dan (A1 | 1) = Rp 15000

Penyelesaian untuk soal tugas kelompok :======================jumlah_fitur =

3

jumlah_data =

4

dataset =

2 6 3 0 4 1 7 2 5 0 7 2

mean_global =

2.2500 4.7500 2.7500

zero_mean =

-0.2500 1.2500 0.2500 -2.2500 -0.7500 -1.7500 4.7500 -2.7500 2.2500 -2.2500 2.2500 -0.7500

matrik_kovarian =

16.3750 -8.3750 8.1250 -8.3750 7.3750 -3.1250 8.1250 -3.1250 4.3750

EigenVektor =

-0.5345 0.2588 0.8045 -0.2673 0.8513 -0.4515 0.8018 0.4563 0.3859

EigenValue =

0.0000 0 0 0 3.1536 0 0 0 24.9714

27Tugas KelompokPerhatikan Dataset berikut :

Jika Height = 2.90, Tentukan kelas Creaturenya ! (Gunakan konsep univariate normal distribution)Buatlah 1 soal cerita beserta jawaban, sesuaikan konsepnya dengan contoh yang ada di Latihan 1. Topiknya buat se-unik mungkin sesuai dengan kreatifitas kelompok anda !

Penyelesaian untuk soal tugas kelompok :======================jumlah_fitur =

3

jumlah_data =

4

dataset =

2 6 3 0 4 1 7 2 5 0 7 2

mean_global =

2.2500 4.7500 2.7500

zero_mean =

-0.2500 1.2500 0.2500 -2.2500 -0.7500 -1.7500 4.7500 -2.7500 2.2500 -2.2500 2.2500 -0.7500

matrik_kovarian =

16.3750 -8.3750 8.1250 -8.3750 7.3750 -3.1250 8.1250 -3.1250 4.3750

EigenVektor =

-0.5345 0.2588 0.8045 -0.2673 0.8513 -0.4515 0.8018 0.4563 0.3859

EigenValue =

0.0000 0 0 0 3.1536 0 0 0 24.9714

28Selesai29Sheet1No(Width) sebagai Fitur 1Kelas19Salmon211Sea Bass39Sea Bass412Salmon.....

M15Sea Bass

Sheet2

Sheet3

Sheet1No(Width) sebagai Fitur ke-1(Lightness) Sebagai Fitur ke-2Kelas198.4Salmon2119.7Sea Bass392.6Sea Bass41210.1Salmon.....

M157.2Sea Bass

Sheet2

Sheet3

4) bayesian decision teory

Documents