persentasi all

Pendekatan secara naive bayes memberikan D kepada kelas C*NB

C = (c1, .. , cm) sebagai m kelas dokumen, • memberi label pada dokumen D yang kemudian dicocokan dengan tabel kata

(word-list) W = (w1, ... , wd)• Dimana P(cj) adalah kemungkinan utama (prior) pada kelas cj dan P(wi|cj) adalah

kemungkinan tertentu dari kata wi pada kelas cj.

Dimana nj adalah total dari jumlah kata di dalam kelas cj, nij adalah jumlah dari kata (wi) yang terkandung dalam kelas cj dan kj adalah banyaknya kata tersebut dalam kelas cj.

memperkirakan kemungkinan dari kata yang muncul dalam kelas cj.

metode yang memberikan label baru dari dokumen D kedalam kelas dokumen cj jika pola training D mendekati kelas cj.Penggunaan TF-IDF dihitung dan digunakan berdasar kesamaan cosinus dan jarak euclid pada dua dokument.

• Merupakan metode pembelajaran secara induktif • Contoh decision tree adalah ID3 dan penyempurnanya yaitu C4.5 dan C5.• Tiap level pohon memberikan informasi yang paling dibutuhkan, disaat ada dokumen

baru yang akan diklasifikasi dengan pemilihan berdasarkan pengklasifikasian kelas dokumen

untuk menambahkan fitur ruang kedalam subregion m ruang yang lebih rendah, tiap region tersebut, merepresentasikan fitur ruang untuk dicocokan dengan pola kelas ci, i = 1, ... , m.

matriks Hk = (hij)dk x d adalah (dk x d) dan baris ke-i cocok dengan komponen ke-i pada tabel kata (word-list) Wk di dalam subspace Lk,kolom ke-i = komopenen ke-i dari tabel kata (word-list) W dalam ruang fitur asli.

Element hij dikalkulasikan sebagai berikut:

nilai berat dari w^k-j didalam subspace Lk

CLASSFREQjk memberikan nilai ratio dari dokumen wj yang termasuk dalam ck pada jumlah dokumen didalam kelas ck dan DOCFREQ ditampilkan dengan ratio jumlah dokumen ditiap kelas yang diambil dari banyaknya contoh data training.aturan klasifikasi subspace pada kelas dimana

subspace merupakan vektor T yang memiliki nilai euclid terbesar

Beberapa peneliti telah menunjukkan bahwa menggabungkan classifiers berbeda-beda dapat meningkatkan akurasi, Salah satunya oleh Larkey dan Croft pada medical document domain.

Untuk setiap dokumen pengujian, peniliti mengklasfikasikan ke kelas Ci.

Tahap ini menerapkan DCS pada documen uji D, menggunakan pendekatan K-Nearest Neighbour untuk menemukan Neighbourhood D dan metode leave-one-out diterapkan pada data training untuk menemukan local accuracy pada tetangga dekat D.

menentukan classifier terbaik dengan local accuracy tertinggi untuk dokumen uji D

Contoh ILUSTRASI kasus DCS dan ACC

Gambar 1. Ilustrasi dari metode DCS dan ACC . Pola yang gelap adalah kesalahan klasifikasi menggunakan metode leave-one-out. (a) DCS method : Pc(classifier1) = 14/20, Pc(classifier2) = 12/20 , classifier1 harus dipilih, X -> class1 ; (b) ACC method : Pc( lass1) = 9/12 + 6/12 ,Pc(class2) 5/8 + 6/8, X -> class2.

Kejadian dari kata yang berbeda dalam dokumen basanya tidak independent, ada korelasi antara kata-kata dalam kumpulan dokumen. Untuk menemukan korelasi tersebut, dibangun matriks bigram untuk masing-masing kelas dokumen.

Dokumen klasifikasi ditandai dengan tingginya dimensi (ribuan fitur) dari ruang fitur terkait dan jumlah yang relatif kecil dari sampel training. 3 fitur pendekatan pengurangan dimensi yaitu

Pada pendeketan ini pada klasifikasi dokumen dipilih subset dari terms terbaik dari seluruh ruang fitur.

memetakan pengukuran asli ke dalam ruang bagian dimensi yang lebih rendah dan efektif.

Tabel 2 menunjukkan perbandingan dari nilai yang dikenali(presisi) menggunakan keempat algoritma klasifikasi. Hasil eksperimen menunjukkan bahwa semua algoritma klasifikasi layak digunakan; pendekatan naive bayes menunjukkan data terbaik pada data set1, tapi the subspace method diluar perkiraan dari semua test data set2.

Kebingungan matriks dari hasil klasifikasi menggunakan NB dari test set1 dan menggunakan SS test set2 ditunjukkan pada tabel 3 dan 4.

Hasil dari beberapa pengklasifikasian menggunakan pendekatan kombinasi berbeda disimpulkan dalam tabel 5. Kita tetapkan k = 20 (neighbour size) dalam eksperimen kita. Catata dari dua buah data ser, tidak terdapat peningkatan yang signifikan dengan menggunakan kombinasi dari pengklasifikasian. Ini menunjukkan bahwa performa dari kombinasi pengklasifikasi adalah terikat

Tabel 6 menunjukkan sebuah perbandingan dari dua buah algoritma pengklasifikasi (nearest neighbour dan decision tree) sebelum dan sesudah menggunakan fitur pengurangan teknik PCA dalam test set1. Kita dapat melihat bahwa performa dari pengklasifikasi DT meningkat dengan menggukan fitur ekstrasi strategi PCA, sementara performa dari pengklasifikasi NN tidak terlalu terpengaruh.

teknik pengelompokan untuk metode subspaceTotal dari 30 pengelompokkan kata telah dipilih dalam eksperimen. Sebuah perbandingan dari pengenalan nilai sebelum dan sesudah menggunakan teknik pengelompokkan kata dalam data set1 diperlihatkan dalam tabel 7

1. Keempat pengklasifikasian memperlihatkan layaknya data set kita. 2. metode naive Bayes bekerja dengan baik dalam data set berita kami, meskipun asumsi

‘kebebasan’ yang tidak selalu memuaskan di dalam dokumen klasifikasi.3. Metode SS sederhana melakukan dengan baik pada satu set data uji dan melebihi NN

dan DT tanpa pengurangan dimensi. 4. Kombinasi beberapa pengklasifikasi tidak selalu meningkatkan akurasi klasifikasi.

Kombinasi classifier adaptif diperkenalkan di sini bekerja lebih baik daripada suara sederhana dan pemilihan classifier dinamis pendekatan pada kami dua set data uji.

5. The ‘curse of dimensionality’ dan overfitting tampaknya tidak menjadi masalah bagi NB, NN dan SS pengklasifikasi.

6. Digunakan untuk vektor fitur dimensi tinggi.7. Tidak ada 'puncak' signifikan dalam kinerja klasifikasi yang diamati dalam percobaan

kami dengan seleksi fitur. 8. Metode jangka pengelompokan mengurangi fitur dimensi dan mengatasi masalah

generalisasi seleksi fitur, sambil mempertahankan kinerja classifier

persentasi all

Documents