4) bayesian decision teory
DESCRIPTION
cfgyheTRANSCRIPT
Klassifikasi I
Bayesian Decision TheoryPengenalan Pola/Pattern RecognitionDasar Pengenalan Pola 2Teori Keputusan BayesKeputusan didukung probabilitas posteriorKeputusan mempertimbangkan Risk/CostFase Training & Testing DataUnivariate Normal DistributionMultivariate Normal DistributionLatihan & TugasProsedur Keputusan BayesProsedur pengenalan pola dan pengambilan keputusansubjectsFeatures xObservables X Action aInner belief wX --- semua data observasi menggunakan sensors dan instruments yang tersediax --- merupakan himpunan fitur yang dipilih dari komponen X, atau fungsi linier dari X.w --- adalah inner belief/perception tentang subject dari kelas/group/kategori. --- adalah aksi/keputusan yang kita ambil untuk x.
Dari prosedur tersebut didapatkan definisi dari 3 ruang vektor sebagai berikut:
ContohKlasifikasi IkanX=I adalah Image/ citra ikan,x =(brightness, length, fin, .)
w merupakan tingkat kepercayaan kita bahwa tipe ikan tersebut adalah Wc={sea bass, salmon, trout, }a merupakan keputusan tipe ikan, pada kasus ini Wc= Wa Wa ={sea bass, salmon, trout, }
Diagnosis MedisX= semua hasil test medis, citra hasil scanx =(blood pressure, glucose level, cough, x-ray.)
w merupakan tipe sakit yang diderita Wc={Flu, cold, TB, pneumonia, lung cancer}
a merupakan keputusan untuk penanganan yang diberikan pada pasien, Wa ={Tylenol, Hospitalize, }
Fokus MetodePada teori keputusan Bayes, kita perhatikan tiga langkah terakhir yang mengasumsikan bahwa observasi telah dilakukan dan fitur telah dipilih sebelumnya.subjectsFeatures xObservables XDecision aInner belief wcontrolsensorsselectingInformative featuresstatisticalinferencerisk/costminimizationKeputusan BayesKeputusan akan dibuat ketika semua distribusi dari probabilitas dari data diketahui, Sehingga keputusan akan menjadi optimal ketika distribusi data diketahui.Misalkan untuk kasus dua kelas yang telah terdefinisi : w1 dan w2 Probabilitas Prior untuk data observasi baru yang belum diketahui didefiniskan dengan : P(w1) : probabilitas observasi data baru dari class 1 P(w2) : probabilitas observasi data baru dari class 2P(w1 ) + P(w2 ) = 1Probabilitas tersebut mencerminkan pengetahuan sebelumnya.Aturan keputusan untuk objek baru (x) :Objek x akan diklasifikasikan sebagai class 1 Jika P(w1 ) > P(w2 ) dengan syarat bahwa tidak ada fitur yang bisa digali dari objek baru tersebut.Teori Keputusan BayesTingkat kepercayaan terhadap class w dihitung menggunakanaturan Bayes :
Tingkat resiko dihitung dengan :
Features xDecision a(x)Inner belief p(w|x)statisticalInferencerisk/costminimizationTwo probability tables: a). Prior p(w) b). Likelihood p(x|w) A risk/cost function (is a two-way table) l(a | w)
Teori Keputusan BayesKita mendefiniskan fitur untuk setiap objek dengan :P(x| w1) & P(x| w2) : class-specific density (Probabilitas kodisional objek (x) terhadap kelas (wj) / Likelihood)Aturan Bayes:
Aturan KeputusanAturan keputusan merupakan fungsi mapping dari ruang fitur ke himpunan keputusan yang akan diambil
Keputusan yang acak (random) tidak akan optimalKeputusan yang dibuat berdasarkan fungsi yang meminimalkan resiko / average cost
Fungsi tersebut akan minimal ketika keputusan yang kita ambil dibuat untuk meminimalkan cost /resiko untuk setiap instance/data x
Bayessian ErrorPada kasus khusus, seperti klasifikasi ikan, aksi yang diambil adalah klasifikasi yang diasumsikan eror : 0/1
Resiko klasifikasi x ke class ai adalah,
Keputusan optimal adalah memilih class yang memiliki probabilitas posterior maximum
Total resiko untuk aturan keputusan (Bayesian error)
Fase Data TrainingContoh Dataset (Ikan Salmon & Sea Bass) :(Misal hanya menggunakan 1 fitur, yaitu Width) menggunakan konsep Risk/ Cost.
Fase Data TrainingContoh Dataset (Smurf or Troll) :(Misal hanya menggunakan 1 fitur, yaitu Height) menggunakan konsep univariate normal distribution.
Jika Height = 2 , tentukan kelas Creaturenya !HeightCreature2.70Smurf2.52Smurf2.57Smurf2.22Smurf3.16Troll3.58Troll3.16Troll
Fase Data TrainingContoh Dataset (Smurf or Troll) :(Misal hanya menggunakan 1 fitur, yaitu Height) menggunakan konsep univariate normal distribution.Langkah-langkah penyelesaian :Menghitung STD dari trolls dan smurfs.
Fase Data TrainingContoh Dataset (Smurf or Troll) :(Misal hanya menggunakan 1 fitur, yaitu Height) menggunakan konsep univariate normal distribution.Langkah-langkah penyelesaian :2. Menghitung Prob. Likelihood dari trolls dan smurfs.
Fase Data TrainingContoh Dataset (Smurf or Troll) :(Misal hanya menggunakan 1 fitur, yaitu Height) menggunakan konsep univariate normal distribution.Langkah-langkah penyelesaian :Menghitung Prob. Prior dari trolls dan smurfs.
Sehingga didapatkan Prob. Posterior berikut :
danJika P(smurf | 2) > P(troll | 2) maka Height = 2 masuk kelas Smurf. Dan sebaliknya.
Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Teori Peluang Biasa :Contoh : Fitur(R,T,D) : rash (R), temperature (T), dizzy(D). Kelas(C) : 1 atau 0. (Terdapat 40 data training)
Fase Training :(Meringkas data training sesuai dengan frekuensi)
Fase Data TestingJika fiturnya lebih dari satu, maka gunakan :Teori Peluang Biasa :
Jadi x1 masuk kelas C = 1, x2 dan x3 masuk kelas C = 0.Fase Testing :Data uji x1 = (1 1 1) x2 = (1 0 0) x3 = (0 1 0)
Klasifikasi didasarkan pada penghitungan probabilitas posterior. Misalkan :Jika P(C = 1 | X) > 0.5 maka C = 1 Jika tidak, maka C = 0.Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate
Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Contoh :
Jika diketahui Curvatur Chip Ring = 2.81 dan Diameter Chip Ring = 5.46 maka, Tentukan kelas Quality Control Result-nya?CurvatureDiameterQuality Control Result2.956.63Passed2.537.79Passed3.575.65Passed3.575.45Passed3.164.46Not passed2.586.22Not passed2.163.52Not passedFase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Fase Training :
X = features (variables independent) Y = Kelas/ Group (variables dependent)
2. Memisahkan x berdasarkan group :
1. Labeling Dataset :Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Fase Training :
X = features (variables independent) Y = Kelas/ Group (variables dependent)Hitung (Mean Corrected) :(xi minus mean global)3. Hitung i = mean features dari group i dan = mean global
Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Fase Training :
5. Hitung matrik Kovarian group i
Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Fase Training :
Sehingga didapat nilai p(2.81,5.46 | Passed) dan p(2.81,5.46 | Not_passed)
6. Hitung Likelihood dari Curvatur = 2.81 dan Diameter = 5.46 :
Fase Data TrainingJika fiturnya lebih dari satu, maka gunakan :Distribusi Normal multivariate (Data Kontinyu) :Fase Training :
Jika p(Passed | 2.81,5.46) > p(Not_passed | 2.81,5.46) , maka Curvatur = 2.81 dan Diameter = 5.46 masuk kelas Passed. Dan sebaliknya.
7. Jadi Prob. Posterior Curvatur = 2.81 dan Diameter = 5.46 adalah sbb :Probabilitas Prior : p(Passed) = 4/7 dan p(Not_passed) = 3/7
Latihan 1Perhatikan grafik distribusi pada proses klasifikasi ikan Sea Bass (2) dan ikan Salmon (1). A1 : Memberikan hasil keputusan bahwa ikan yang diuji coba adalah termasuk kelas ikan Sea Bass. A2 : Memberikan hasil keputusan bahwa ikan yang diuji coba adalah termasuk kelas ikan Salmon. Probabilitas Prior ikan Sea Bass dan Salmon masing-masing P(2) = 2/3 dan P(1) = 1/3. Biaya/Cost jika hasil klasifikasinya adalah ikan salmon, tapi sebenarnya ikan tersebut adalah ikan sea bass sebesar (A2 | 2) = $2, dan Biaya jika hasil klasifikasinya adalah ikan Sea Bass, tapi sebenarnya ikan tersebut adalah Salmon sebesar (A1 | 1) = $1.Tentukan hasil keputusan klasifikasi jika input x = 13, dimana probabilitas likelihoodnya masing-masing P(x | 1) = 0,28 dan P(x | 2) = 0,17 dengan pertimbangan Cost/ Resiko yang ada !
Penyelesaian :Diketahui :1 Kelas Salmon 2 Kelas Sea Bass A1 Decide Input is Sea BassA2 Decide Input is Salmon(A2 | 2) = $2 dan (A1 | 1) = $1
Penyelesaian untuk soal latihan :======================jumlah_fitur =
2
jumlah_data =
3
dataset =
2 3 2 2 3 3
mean_global =
2.3333 2.6667
zero_mean =
-0.3333 0.3333 -0.3333 -0.6667 0.6667 0.3333
matrik_kovarian =
0.6667 0.3333 0.3333 0.6667
EigenVektor =
-0.7071 0.7071 0.7071 0.7071
EigenValue =
0.3333 0 0 1.000025Jawab :
Latihan 1 (Cont.)
(Menghitung Probabilitas Posterior )(Menghitung Risk/Cost)
Melihat nilai biaya resiko dari R(A1 | x) < R(A2 | x) , maka x = 13 masuk kelas Sea Bass.
Keputusan dilihat dari nilai : Penyelesaian untuk soal latihan :======================jumlah_fitur =
2
jumlah_data =
3
dataset =
2 3 2 2 3 3
mean_global =
2.3333 2.6667
zero_mean =
-0.3333 0.3333 -0.3333 -0.6667 0.6667 0.3333
matrik_kovarian =
0.6667 0.3333 0.3333 0.6667
EigenVektor =
-0.7071 0.7071 0.7071 0.7071
EigenValue =
0.3333 0 0 1.000026Latihan IndividuPerhatikan Dataset berikut :
Jika Diameter = 2.1, Tentukan kelasnya dengan mempertimbangan Cost/ Resiko yang ada ! (Gunakan fungsi pdf untuk menghitung likelihoodnya)
1 Kelas Pen 2 Kelas PensilA1 Decide Input is PensilA2 Decide Input is Pen(A2 | 2) = Rp 40000 dan (A1 | 1) = Rp 15000
Penyelesaian untuk soal tugas kelompok :======================jumlah_fitur =
3
jumlah_data =
4
dataset =
2 6 3 0 4 1 7 2 5 0 7 2
mean_global =
2.2500 4.7500 2.7500
zero_mean =
-0.2500 1.2500 0.2500 -2.2500 -0.7500 -1.7500 4.7500 -2.7500 2.2500 -2.2500 2.2500 -0.7500
matrik_kovarian =
16.3750 -8.3750 8.1250 -8.3750 7.3750 -3.1250 8.1250 -3.1250 4.3750
EigenVektor =
-0.5345 0.2588 0.8045 -0.2673 0.8513 -0.4515 0.8018 0.4563 0.3859
EigenValue =
0.0000 0 0 0 3.1536 0 0 0 24.9714
27Tugas KelompokPerhatikan Dataset berikut :
Jika Height = 2.90, Tentukan kelas Creaturenya ! (Gunakan konsep univariate normal distribution)Buatlah 1 soal cerita beserta jawaban, sesuaikan konsepnya dengan contoh yang ada di Latihan 1. Topiknya buat se-unik mungkin sesuai dengan kreatifitas kelompok anda !
Penyelesaian untuk soal tugas kelompok :======================jumlah_fitur =
3
jumlah_data =
4
dataset =
2 6 3 0 4 1 7 2 5 0 7 2
mean_global =
2.2500 4.7500 2.7500
zero_mean =
-0.2500 1.2500 0.2500 -2.2500 -0.7500 -1.7500 4.7500 -2.7500 2.2500 -2.2500 2.2500 -0.7500
matrik_kovarian =
16.3750 -8.3750 8.1250 -8.3750 7.3750 -3.1250 8.1250 -3.1250 4.3750
EigenVektor =
-0.5345 0.2588 0.8045 -0.2673 0.8513 -0.4515 0.8018 0.4563 0.3859
EigenValue =
0.0000 0 0 0 3.1536 0 0 0 24.9714
28Selesai29Sheet1No(Width) sebagai Fitur 1Kelas19Salmon211Sea Bass39Sea Bass412Salmon.....
M15Sea Bass
Sheet2
Sheet3
Sheet1No(Width) sebagai Fitur ke-1(Lightness) Sebagai Fitur ke-2Kelas198.4Salmon2119.7Sea Bass392.6Sea Bass41210.1Salmon.....
M157.2Sea Bass
Sheet2
Sheet3