penggunaan teori set kasar dalam perlombongan data
DESCRIPTION
Penggunaan Teori Set Kasar dalam Perlombongan Data. Dibentangkan oleh :. Noranisah Amerudin Pelajar Kerja Kursus dan Tesis Universiti Kebangsaan Malaysia [email protected]. Isi Kandungan. Pengenalan Konsep asas Set Kasar Proses Penjanaan Petua. Pengenalan. Perlombongan data : - PowerPoint PPT PresentationTRANSCRIPT
Penggunaan Teori Set Kasar dalam
Perlombongan Data
Noranisah AmerudinPelajar Kerja Kursus dan Tesis
Universiti Kebangsaan Malaysia
Dibentangkan oleh :
Isi Kandungan
• Pengenalan
• Konsep asas Set Kasar
• Proses Penjanaan Petua
Pengenalan
Perlombongan data :
Mencari hubungan dan corak yang wujud dalam pangkalan data; yang tersembunyi di dalam jumlah data yang besar
Membuat ramalan
Teknik Perlombongan Data
Rangkaian Neural Evolutionary Programming Memory Based Reasoning Pohon Keputusan Algoritma Genetik Teori Set Kasar
Pengenalan (2)
Teori set kasar telah diperkenalkan oleh Zdzislaw Pawlak pada awal tahun 1980-an.
Matlamat utama teori ini :
menginduksi dan menggabungkan (synthesize) konsep penghampiran dengan data yang ada.
membina pengkelasan yang dapat mengkelaskan objek yang tidak dapat dilihat dengan jelas.
menjelaskan dan menerangkan ciri model data yang diperolehi.
Konsep asas dalam Set Kasar
Sistem maklumat & Jadual Keputusan Ketidakbolehbezaan (Indiscernibility)
Penghampiran Set (Set Approximation)
Pengurangan (Reducts and Core)
Petua Keputusan (Decision Rules)
Sistem Maklumat
Age LEMS
x1 16-30 50x2 16-30 0x3 31-45 1-25x4 31-45 1-25x5 46-60 26-49x6 16-30 26-49x7 46-60 26-49
• Sistem maklumat terdiri daripada sepasang (U, A)
• U adalah set terhingga objek yang tidak kosong.
• A adalah set terhingga atribut yang
tidak kosong dan diwakilkan sebagai bagi setiap
• dipanggil set nilai atribut a.
aVUa : .Aa
aV
Jadual Keputusan
Age LEMS Walk
x1 16-30 50 yes x2 16-30 0 no x3 31-45 1-25 nox4 31-45 1-25 yes
x5 46-60 26-49 nox6 16-30 26-49 yes
x7 46-60 26-49 no
• Jadual Keputusan :
• d adalah atribut keputusan dan
• A adalah atribut syarat.
}){,( dAUT
Ad
Isu di dalam Jadual Keputusan
Objek yang tidak mempunyai perbezaan yang nyata dipersembahkan beberapa kali.
Sesetengah atribut berlebihan dan tidak dikehendaki.
Ketidakbolehbezaan (Indiscernibility)
Age LEMS Walk
x1 16-30 50 yes x2 16-30 0 no x3 31-45 1-25 nox4 31-45 1-25 yes
x5 46-60 26-49 nox6 16-30 26-49 yes
x7 46-60 26-49 no
Subset tidak kosong bagi atribut syarat ialah {Age}, {Lems} dan {Age,Lems}.
IND({Age}) = {{x1,x2, x6}, {x3, x4}, {x5, x7}}
IND({Lems}) = {{x1}, {x2}, {x3, x4}, {x5, x6, x7}}
IND{(Age, Lems)} = {{x1}, {x2}, {x3,x4}, {x5, x7}, {x6}}
Penghampiran Set (Approximation Set)
A-lower approximation AX = {x1, x6}
A-boundary region BNA(X) = ĀX – AX = {x3, x4}
A-upper approximation ĀX = {x1, x3, x4, x6}
Penghampiran Set (2)
A-lower approximation AX = {x | [x]A X}A-upper approximation ĀX = {x | [x]A X 0}
Penghampiran Set (3)
• Jika kawasan sempadan tidak kosong, maka ia adalah kasar.
• Set kasar wujud apabila objek-objek berada di antara dua sempadan iaitu positif dan negatif.
Ketepatan Penghampiran (Accuracy Approximation)
• Setelah melakukan penghampiran, kita boleh mengira ketepatan penghampiran yang telah dibuat.
• Formula :
Di mana |X| mewakili kardinaliti X 0 Jika B(X) = 1 adalah tepat /crisp kepada B.
Jika B(X) < 1 adalah kasar /rough kepada B.
Pengurangan(Reducts)
• Selalunya terdiri daripada beberapa subset atribut yang lebih minima dan ini dikenali sebagai reducts.
• Dengan kata lain membuang data yang berulang atau bertindan.
• Tujuan utama adalah untuk mengetahui atribut mana yang boleh mewakili keseluruhan atribut untuk mewakili data-data dalam pangkalan data dan kebergantungan di antara atribut-atribut.
Pengurangan (2)
• T = (U,C,D) adalah tidak bergantung jika semua c C adalah diperlukan dalam T.
• Semua set atribut syarat diperlukan dalam T diwakili dengan CORE(C).
CORE (C) = RED (C)
di mana RED(C) adalah semua set atribut yang
dikurangkan daripada C.
Contoh Reducts & CORE (3)
U Headache Musclepain
Temp. Flu
U1 Yes Yes Normal NoU2 Yes Yes High YesU3 Yes Yes Very-high YesU4 No Yes Normal NoU5 No No High NoU6 No Yes Very-high Yes
U Muscle pain
Temp. Flu
U1,U4 Yes Normal No U2 Yes High Yes U3,U6 Yes Very-high Yes U5 No High No
U Headache Temp. Flu
U1 Yes Norlmal NoU2 Yes High YesU3 Yes Very-high YesU4 No Normal NoU5 No High NoU6 No Very-high Yes
Reduct1 = {Muscle-pain,Temp.}
Reduct2 = {Headache, Temp.}
CORE = {Headache,Temp} {MusclePain, Temp} = {Temp}
Petua Keputusan(Decision rules)
• Apabila reducts telah dijumpai, tugas membina petua-petua yang tepat daripada atribut keputusan daripada sistem maklumat boleh dilakukan.
• Petua keputusan dibuat dengan menggabungkan atribut-atribut reducts.
• Petua keputusan mengekstrak pengetahuan di mana boleh digunakan apabila mengkelaskan objek-objek baru dalam sistem maklumat.
Petua Keputusan(2)Jadual Kesetaraan (Equivalence Class)
Matrik Pembezaan (Discernibility Matrix)
Petua Keputusan yang dihasilkan
Proses Penjanaan Petua
Proses penjanaan rules menggunakan pendekatan Set Kasar
Matlamat
• Matlamat tesis saya seterusnya ;
– Menghasilkan sebuah cengkerang pakar (tool) yang dapat menentukan samada seseorang pesakit itu menghidapi penyakit Telinga, Hidung dan Tekak (ENT) atau tidak dengan menggunakan teknik set kasar.
Sekian,
terima kasih….