clusteringelearning.amikompurwokerto.ac.id/index.php/download/... · definisi clustering : proses...

52
CLUSTERING

Upload: others

Post on 21-Dec-2020

13 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CLUSTERING

Page 2: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

DEFINISI

Clustering :

Proses mengelompokkan suatu set objek ke dalam

kelompok-kelompok objek yang sejenis

Bentuk yang paling umum digunakan adalah

unsupervised learning

# Unsupervised learning belajar dari data

# Supervised learning contoh yang telah diklasifikasikan

Merupakan topik yang penting dan banyak diaplikasikan

pada IR

Page 3: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CLUSTERING

Algoritma clustering akan membagi suatu objek

menjadi subset objek, dimana tiap subset berisi

objek yang dianggap sejenis

Page 4: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CLUSTERING

Clustering dapat digunakan untuk mengorganisasikan

dokumen yang diperoleh

Page 5: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

ALASAN PERLUNYA DOKUMEN

DIKELOMPOKKAN

Analisa keseluruhan Korpus

User interface yang lebih bagus (yang dicluster koleksinya)

Untuk visualisasi koleksi dokumen dan topiknya

Untuk memperbaiki recall pada hasil pelacakan

Hasil pelacakan yang lebih baik (yang dicluster hasil perolehan dokumen)

Untuk navigasi yang lebih baik dari hasil pelacakan

User recall akan lebih tinggi

Page 6: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

ANALISA KESELURUHAN KORPUS

Koleksi dipecah menjadi beberapa kelompok

berdasarkan isi dokumen yang sejenis

User dapat melakukan browsing pada topik-topik yang

ada pada koleksi

Perlu diberi label tertentu dari setiap node topik yang

ada

Contoh : Di yahoo hirarki secara manual

Sering tidak ada informasi dari koleksi yang baru

Page 7: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

ANALISA KESELURUHAN KORPUS

Contoh hirarki pada Yahoo

Page 8: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

VISUALISASI DOKUMEN DAN TOPIKNYA

Page 9: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

MEMPERBAIKI RECALL DARI PELACAKAN

Hipotesa cluster :

Dokumen dengan teks yang mirip adalah berkaitan

Untuk memperbaiki recall :

Kelompokkan dokumen pada korpus sebelumnya

Jika suatu query cocok dengan dok D maka berikan

juga dokumen yang sekelompok dengan dok D

Harapannya : jika ada query “pakaian” maka akan

diberikan juga dokumen tentang “baju”

Karena clustering akan menggelompokkan dokumen

tentang baju dan pakaian dalam satu kelompok

Page 10: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

NAVIGASI YANG LEBIH BAIK DARI HASIL

PELACAKAN

Untuk mengelompokkan hasil pelacakan sesuai

dengan temanya

Clusty.com

Page 11: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

NAVIGASI YANG LEBIH BAIK DARI HASIL

PELACAKAN

Lebih visual

Kartoo.com

Page 12: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH CLUSTERING

Page 13: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH CLUSTERING

Page 14: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

ISU PADA CLUSTERING

Bagaimana representasi pada clustering?

Representasi dokumen

Perlu ukuran kemiripan / jarak

Berapa jumlah cluster

Jumlah tetap yang sudah adilakuakn pada korpus?

Sepenuhnya tergantung pada data?

Hindari cluster terlalu besar atau kecil

Jika terlalu besar tambahan satu klik dari user jadi sia-sia

Page 15: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

APA YANG MEMBUAT DOKUMEN “ BERKAITAN”

Ideal : semantic similarity

Praktis : statistical similarity

Misal menggunakan cosine similarity

Dokumen sebagai vektor

Kebanyakan algoritma lebih mudah jika berpikir ada

jarak diantara dokumen (dari pada similarity)

Page 16: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

JENIS-JENIS ALGORITMA CLUSTERING

Berdasarkan hubungan antara :

Cluster kelompok yang dihasilkan

Objek sesuatu yang ditempatkan pada kelompok

Properties cara kita merepresentasikan sesuatu

Properti :

feature yang direpresentasikan dari sebuah dokumen

Isi properti kata (kata/frase)

Dapat memanfaatkan anotasi (nama, lokasi, organisasi,

kejadian, hubungan)

Dapat menggunakan metadata (penulis, tanggal, genre,

kata kunci )

Page 17: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

Hubungan antara properties dengan cluster

Monothetic : semua item pada cluster punya properties yang sama (mis : burung)

Polythetic : semua item pada cluster punya sebagian besar properties (dokumen punya banyak kata)

Hubungan antara objek dengan cluster

Eksklusif : setiap objek menjadi anggota satu cluster

Overlapping : setiap objek dapat menjadi anggota dari beberapa cluster

Hubungan antara cluster dan cluster

Ordered : ada cluster yang menjadi bagian dari cluster lain (hirarki)

Unordered : setiap cluster dibuat sama

JENIS-JENIS ALGORITMA CLUSTERING

Page 18: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

JENIS-JENIS ALGORITMA CLUSTERING

Page 19: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

HIERARCHICAL VS FLAT

Hierarchical

Digunakan untuk analisa detail

Memberikan lebih banyak informasi daripada flat

Tidak ada algoritma yang paling baik

Kurang efisien

Ada dua jenis : Bottom-up (agglomerative) dan Top-down (divisive)

Flat

Biasanya dimulai dengan suatu partisi acak (partial)

Digunakan untuk efisiensi

K-means sangat sederhana

K-means tidak masuk akal untuk beberapa jenis data (misal : nama)

Page 20: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

HIERARCHICAL CLUSTERING :

TOP-DOWN VS BOTTOM-UP

Page 21: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

BOTTOM-UP CLUSTERING : MENENTUKAN

SIMILARITY ANTAR CLUSTER

Page 22: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

MENGUKUR SIMILARITY

Digunakan untuk membandingkan dua objek

Properti yang diinginkan sesuai dengan fungsi

similarity, S(X,Y)

S(X,Y) bertambah jika X dan Y mempunyai feature yang

sama

Biasanya S(X,Y) = 0 jika X dan Y tidak mempunyai

feature yang sama

Ada berbagai fungsi similarity

Secara umum tidak ada fungsi yang paling baik

Page 23: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH PENGUKURAN SIMILARITY

Page 24: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

SIMILARITY DARI PASANGAN DOKUMEN

(COSINE NORMALIZATION)

+

Page 25: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

DOKUMEN / MATRIKS DOKUMEN

Page 26: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

SINGLE LINK

Page 27: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

COMPLETE LINK

Page 28: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

AVERAGE LINK

Page 29: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH HIERARCHICAL CLUSTERING

Page 30: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH : SINGLE LINK

Page 31: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH : SINGLE LINK (LANJUTAN)

Page 32: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH (LANJUTAN)

Page 33: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH : SINGLE –LINK (LANJUTAN)

Page 34: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH : SINGLE LINK

Page 35: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH : SINGLE LINK (LANJUTAN)

Page 36: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

DENDOGRAM : HIERACHICAL CLUSTERING

Page 37: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

APA YANG MEMBUAT CLUSTERING BAIK?

Page 38: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

FLAT CLUSTERING : K - MEANS

Page 39: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

FLAT CLUSTERING : K-MEANS

Page 40: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

K-MEANS : PARTISINYA CEPAT

Page 41: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

K-MEANS

cx

xcuc

||

1)(

Page 42: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

CONTOH K-MEANS (K=2)

Page 43: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

KONDISI PEMBERHENTIAN

Diantaranya :

Posisi centroid tidak berubah

Partisi dokumen tidak berubah

Page 44: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

PEMILIHAN SEED

Page 45: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

DESKRIPSI CLUSTER

Page 46: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

MENGEVALUASI CLUSTER

Page 47: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

MENGEVALUASI CLUSTER

Page 48: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

BERAPA JUMLAH CLUSTER?

Page 49: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

PEMILIHAN FEATURE

Page 50: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

BIG ISSUE : LABELING

Page 51: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

BAGAIMANA MEMBERI LABEL PADA CLUSTER?

Page 52: CLUSTERINGelearning.amikompurwokerto.ac.id/index.php/download/... · DEFINISI Clustering : Proses mengelompokkan suatu set objek ke dalam kelompok-kelompok objek yang sejenis Bentuk

PELABELAN