ferry yuwono. penggunaan metode market basket analysis untuk

PENGGUNAAN METODE MARKET BASKET ANALYSIS UNTUK MENINGKATKAN KEMAMPUAN SEARCH ENGINE ONLINE BUKU TUGAS AKHIR PADA PERPUSTAKAAN UK PETRA

oleh:Gregorius S. Budhi1 ; Ibnu Gunawan2 ; Ferry Yuwono3

1) Dosen UK Petra Jurusan Teknik InformatikaEmail: [email protected]

2) Dosen UK Petra Jurusan Teknik InformatikaEmail: [email protected]

3) Alumni UK Petra Jurusan Teknik Informatika

ABSTRAKAplikasi Search Engine Online untuk buku tugas akhir pada perpustakaan UK Petra hanya dapat menyajikan daftar judul buku tugas akhir yang bagain abstraknya mengandung kata - kata yang dicari. Dengan mengaplikasikan metode Text Mining, peneliti mencoba meningkatkan kemampuan Search Engine tersebut. Harapannya agar Search Engine dapat pula menemukan judul - judul Tugas Akhir yang ber-asosiasi dengan kata - kata yang dicari, walaupun pada abstrak buku tersebut tidak mengandung kata - kata yang dicari.Pada aplikasi ini digunakan metode Keyword-Based Association Analysis sebuah metode Text Mining yang dikembangkan dari metode Market Basket Analysis. Algortima Apriori dari Market Basket Analysis digunakan untuk menggali data dalam bentuk Compact Transaction menjadi rule - rule asosiasi. Compact Transaction didapat dari pemrosesan awal terhadap teks abstrak TA menggunakan Algoritma Porter Stemmer for Bahasa Indonesia. Rule - rule asosiasi yang dihasilkan memberikan informasi asosiasi antar keyword dari sekumpulan abstrak TA yang diproses. Sorting list judul TA yang berasosiasi didasarkan atas simililarity judul tersebut dengan keyword - keyword yang dicari menggunakan rumus Minimum Distance dari Hierarchical Clustering.Dari hasil pengujian dapat disimpulkan bahwa dengan penerapan metode Keyword-Based Association Analysis, Search Engine dapat pula menyajikan daftar judul TA yang bagian abtraknya berasosiasi dengan kata - kata yang dicari.

Kata kunci:Text Mining, Keyword-Based Association Analysis, Market Basket Analysis, Algoritma

Apriori, Association Rules, Minimum Distance, Search Engine Online

1. PendahuluanSearch Engine Online adalah sebuah alternatif yang diberikan oleh perpustakaan

Universitas Kristen Petra untuk mencari koleksi buku laporan Tugas Akhir, selain untuk

mencari koleksi buku lainnya. Layanan search engine tersebut hanya dapat melakukan

pencarian berdasarkan judul, nama penulis, abstrak dan kata kunci (keyword).

Kelemahan dari Search Engine ini adalah, dia hanya dapat menampilkan daftar judul

buku tugas akhir yang secara explisit mengandung kata yang dicari pada bagian judul,

nama pengarang, abstrak dan keyword-nya. Buku - buku tugas akhir yang memiliki

1

mailto:[email protected]

topik sejenis atau asosiasi dengan kata yang dicari, namun tidak mengandung kata

tersebut didalamnya, tidak dapat ditampilkan pada hasil pencarian.

Penulis dengan menggunakan dua buah metode Text Mining yaitu Keyword-Based

Association Analysis, sebuah metode yang dikembangkan dari metode Market Basket

Analysis, dan Text Clustering mencoba meningkatkan kemampuan Search Engine

Online perpustakaan UK Petra agar dapat pula menampilkan daftar judul buku laporan

TA yang secara implisit memiliki 'hubungan' atau asosiasi dengan kata yang dicari.

2. Teori Penunjang2.1. Knowledge Discovery (Data Mining)Data Mining atau KDD adalah proses untuk menemukan interesting knowledge dari

sejumlah besar data yang disimpan baik di dalam databases, data warehouses atau

tempat penyimpanan informasi lainnya[3].

2.2. Text Mining : Keyword-Based Association AnalysisKeyword-Based Association Analysis, sebuah metode Text Mining yang dikembangkan

dari Market Basket Analysis, merupakan sebuah analisa yang mengumpulkan

keywords atau terms (istilah) yang sering muncul secara bersamaan dan kemudian

menemukan hubungan asosiasi dan korelasi di antara keywords atau terms itu[3].

Seperti halnya metode data mining yang lain, sebelumnya association analysis perlu

melakukan pre-processing terhadap text data dengan cara parsing, stemming,

removing stopwords, dan sebagainya. Setelah itu baru menjalankan algoritma

association mining. Di dalam sebuah document database, setiap dokumen dapat

dianggap sebagai sebuah transaksi, sedangkan sekumpulan keywords di dalam

document dapat dianggap sebagai sekumpulan items di dalam sebuah transaksi.

Sehingga pada database akan mempunyai format sebagai berikut[3]: {document_id,

a_set_of _keywords}. Format seperti ini biasa disebut format Compact Transaction.

2.3. Association Rule MiningAssociation rule mining adalah suatu prosedur untuk mencari hubungan antar item

dalam suatu data set yang ditentukan[3]. Association Rule Mining meliputi dua tahap:

a. Mencari kombinasi yang paling sering terjadi dari suatu itemset (frequent itemset).

b. Meng-generate Association Rule dari frequent itemset yang telah dibuat

sebelumnya.

Umumnya ada dua ukuran kepercayaan (interestingness measure) yang digunakan

dalam menentukan suatu association rule, yaitu Support dan Confidence[3].

2

2.4. Algoritma Apriori untuk Menemukan Frequent ItemsetsApriori adalah suatu algoritma untuk melakukan pencarian frequent itemsest untuk

mendapatkan association rules. Sesuai dengan namanya, algoritma ini menggunakan

prior knowledge mengenai frequent itemset properties yang telah diketahui

sebelumnya, untuk memproses informasi selanjutnya. Apriori menggunakan

pendekatan secara iterative yang disebut juga sebagai level-wise search dimana k-

itemset digunakan untuk mencari (k+1)-itemset[1].

2.5. Hierarchical Cluster pada Text MiningHierarchical Cluster menggunakan pendekatan berbasis set (set-based approach).

Root dari hirarkinya adalah sebuat set untuk semua koleksi dokumen, dan Leaf-nya

adalah set - set yang berisi sebuah dokumen saja. Teknik pengelompokan yang

digunakan berbasis pada kesamaan (similarity) dari keyword - keyword yang ada pada

dua buah dokumen[7]. Ada beberapa cara yang dapat digunakan untuk mengukur

jarak (distance) atara dua cluster, salah satunya adalah rumus berikut ini[3]:

Minimum Distance: dmin(Ci, Cj) = minpCi,p'Cj |p - p'| ........................ (1)

Dimana: |p - p'| adalah jarak dari 2 point obyek di dalam dua Cluster yang

berbeda Ci dan Cj.

3. Desain Sistem

Gambar 1: DFD Level 1 untuk Sistem Text Mining

3

Pada paper ini penulis hanya membahas tentang tahap Proses Generate Association

Rules dan Proses Search Keyword. Sementara itu untuk tahap Pre-processing Abstrak

TA dibahas tersendiri dalam paper oleh penulis yang sama, dengan judul "Algoritma

Porter Stemmer For Bahasa Indonesia untuk Pre-Processing Text Mining berbasis

metode Market Basket Analysis”.

3.1. Tahap Proses Generate Association RulesDesain dari proses ini dapat dilihat pada gambar 2. Tahap proses ini terdiri dari dua

subproses yaitu subproses Generate Frequent Itemsets dengan Apriori dan subproses

Generate Association Rules dari Frequent Itemsets.

1. Subproses Generate Frequent Itemsets memproses input data berupa data dari

tabel transaksi dan minimum support count dari administrator, untuk menghasilkan

output data frequent itemsets yang disimpan pada tabel Frequent Itemset.

Algoritma yang digunakan untuk mendapatkan Frequent Itemset adalah algortima

AprioriTID yang diciptakan oleh Agrawal dan Srikant pada tahun 1994[1]. Isi tabel

transaksi dapat dilihat pada gambar 3.

2. Pada subproses Generate Association Rule, Frequent itemsets dari tabel

diproses untuk menghasilkan data output berupa rule - rule asosiasi, dan disimpan

pada tabel association rules. Untuk memproses rule - rule asosiasi, administrator

perlu menentukan minimum confidence terlebih dahulu. Untuk meng-generate rule

asosiasi ini digunakan prosedur Ap-Genrules yang diciptakan oleh Agrawal dan

Srikant, tahun 1994[1].

Gambar 2: DFD Level 2 Proses Generate Association Rules

Tahap Proses Generate Association Rule adalah aplikasi berbasis Windows 2000 ke

atas, dan dibangun menggunakan software kompilasi Delphi 7.

4

Gambar 3: Isi Tabel Transaksi untuk input proses Generate Frequent Itemset

3.2. Tahap Proses Search KeywordsTahap ini didisain dalam bentuk aplikasi berbasis Web dan dibangun dengan

pemrograman web PHP3 menggunakan software Dreamweaver MX.

Mula - mula inputan dari user yang berupa string dikenai proses Parsing, yaitu memilah

string tersebut kata per kata. Selanjutnya dilakukan proses Stemming dan Stopwords

Removal, sehingga yang tersisa dari inputan user adalah keyword - keyword saja.

Pemrosesan string inputan user ini sama dengan tahap pre-processing sistem, dan

dibahas tersendiri dalam paper yang ditulis oleh penulis yang sama dengan judul

"Algoritma Porter Stemmer For Bahasa Indonesia untuk Pre-Processing Text Mining

berbasis metode Market Basket Analysis ". Desain dari proses ini dapat dilihat pada

gambar 4.

5

Gambar 4: DFD Level 2 Proses Search Keywords

Ada dua tahap pada proses pencarian abstrak TA, yaitu:

a. Tahap Pertama, pencarian abstrak TA yang mengandung keyword - keyword

inputan user. Pada tahap ini keyword inputan user dibandingkan dengan tabel

transaksi, yang berisi nomor TA dan keyword - keyword pada abstrak TA tersebut,

bila ada maka judul TA akan ditampilkan pada user. Daftar judul TA ini diurutkan

secara descending, bobot yang digunakan adalah banyaknya macam keyword user

yang terkandung didalam abstrak TA itu ( dalam tabel transaksi).

b. Tahap kedua adalah pencarian abstrak TA yang berasosiasi dengan keyword -

keyword inputan user. Pada tahap ini keyword dari user dibadingkan dengan sisi

premis (IF) dari rule - rule asosiasi yang disimpan pada tabel association rules. Bila

sebuah rule telah diketemukan, maka semua kata yang berada pada sisi konklusi

(THEN) rule tersebut akan disimpan pada penyimpan sementara. Hal ini terus

dilakukan berulang - ulang sampai semua rule asosiasi telah dibandingkan.

Selanjutnya daftar kata yang berasosiasi dengan keyword - keyword user itu, kata

yang berada pada sisi konklusi rule, dibandingkan dengan isi tabel transaksi, bila

ada maka judul TA akan ditampilkan pada user. Daftar judul TA ini diurutkan

secara descending, bobot yang digunakan adalah derajat asosiasi (confidence)

dari keyword - keyword yang ada pada abstrak TA terhadap keyword inputan user.

3.2.1. Mengukur derajat asosiasi keyword abstrak TA dan keyword User

6

Metode yang digunakan untuk menentukan bobot pengurutan data judul TA yang ber-

asosiasi dengan keyword - keyword dari user diadopsi dari metode Hierarchical Cluster

untuk Text Mining. Dalam hal ini kumpulan keyword dari user dan juga kumpulan

keyword pada abstrak - abtrak TA yang ada dianggap sebagai sekumpulan Cluster Of

Keywords. Cluster yang berisi keyword - keyword dari user dianggap sebagai cluster

pusat, kemudian diukur derajat asosiasi antara cluster ini dengan cluster - cluster yang

lain (abstrak TA) menggunakan rumus Minimum Distance. Untuk menghitung nilai

jarak antara dua point keyword pada Cluster-User-Keyword dan Cluster-Abstrak-TA

digunakan rumus:

|p - p'| = 1 - Confidence(Rule: IF Ki THEN Kj) ............................................ (2)

Dimana: Ki adalah keyword inputan dari user dan Kj adalah keyword pada

abstrak TA.

Rule yang valid adalah bila sisi premis rule tersebut berisi keyword dari user dan sisi

konklusi berisi keyword pada dokumen. Untuk lebih jelasnya, dapat dilihat ilustrasi

pada gambar 5.

Gambar 5: Ilustrasi perhitungan derajat asosiasi

3.3. Desain DatabaseDisain database dapat dilihat pada gambar 6. Tabel tabelnya adalah sebagai berikut:

- Tabel TA_Skripsi_Civitas, TA_Civitas dan TA_Skripsi didapat dari tabel database

yang telah ada pada perpustakaan UK Petra. Ketiga tabel ini berisi data - data

buku laporan TA semua jurusan di UK Petra.

7

- Tabel TA_Master_Jurusan, TA_Rule, TA_If dan TA_Then digunakan untuk

menyimpan rule - rule asosiasi yang dihasilkan sistem.

- Tabel Transaksi untuk menyimpan keyword - keyword dari abstrak TA dalam

bentuk Compact Transaction, setelah dilakukan tahap pre-processing. Pada tabel -

tabel ini istilah 'Keyword' diganti dengan 'Kata Penting' untuk membedakannya

dengan field 'Csubject_Keyword' pada tabel TA_Skripsi yang berisi 'kata kunci' dari

laporan TA tersebut.

- Tabel TA_Master_Kata_Penting digunakan untuk menyimpan daftar Keyword /

Kata Penting. Tabel TA_Stop untuk menyimpan daftar Stopword yang ada.

Gambar 6: ERD database yang digunakan pada sistemUntuk penyimpan data digunakan software database MS SQL Sever 2000.

4. PengujianPengujian dengan dilakukan menggunakan spesifikasi Hardware dan Software berikut:

Processor : Pentium IV 1.5 GHz

Memory : 256 MB

Operating System : MS Windows XP

Database: : MS SQL Server 2000

Hasil pengujian dapat dilihat pada gambar 7 sampai dengan gambar 11.

8

Gambar 7: Tampilan Rule Asosiasi yang dihasilkan

Gambar 8: Web Search Engine TA, halaman awal

Gambar 9: Hasil Search untuk TA yang mengandung User’s Keywords

Gambar 10: Hasil Search untuk TA yang berasosiasi dengan User’s Keywords

Gambar 11: Halaman Web Detail data buku TA (judul, ruang lingkup,

abstrak, dll)

5. Kesimpulan Semakin tinggi batasan minimum support count yang ditentukan maka association

rules yang dihasilkan semakin sedikit sehingga menurunkan kuantitas dari keyword

rekomendasi yang dihasilkan namun lebih meningkatkan asosiasi di antara user’s

keyword dengan keyword rekomendasi.

9

Bila dipilih jurusan yang tidak sesuai dengan topik yang diharapkan user, pencarian

judul TA yang berasosiasi dengan Keyword User akan menghasilkan daftar yang

‘missleading’. Hal ini karena banyak kata - kata yang sama namun memiliki arti

berbeda untuk jurusan – jurusan yang berbeda.

Metode Keyword-Based Association Analysis dapat digunakan untuk mendapatkan

judul – judul TA yang ‘direkomendasikan’ (memiliki asosiasi) dengan keyword –

keyword inputan dari user.

Daftar Pustaka1. Agrawal, Rakesh, Ramakrishnan Srikant, 1994, Fast Algorithms for Mining

Association Rules, Proceeding Of The 1994 International Conference Very Large

Data Bases, Santiago, Chile, September 1994.

2. Dhillon, Inderjit S., Dharmendra S. Modha, 2001, Concept Decompositions for

Large Sparse Text Data using Clustering, Machine Learning, vol. 42, no. 1, pp.

143-175, January 2001.

3. Han, Jiawei, Micheline Kamber, 2001, Data Mining : Concepts and Techniques.

Morgan Kaufmann.

4. Hand, David, Heikki Mannila, Padhraic Smyth, 2001, Priciples Of Data Mining, The

MIT Press.

5. Tala, Fadillah Z., 2003, A Study of Stemming Effects on Information Retrieval in

Bahasa Indonesia, Institute for Logic, Language and Computation Universeit Van

Amsterdam.

6. Tan, A., 1999, Text mining: The state of the art and the challenges, In Proceedings

of the Pacific Asia Conference on Knowledge Discovery and Data mining,

PAKDD'99 workshop on Knowledge Discovery from Advanced Databases.

7. Wakil, Mohammed El, 2002, Introducing Text Mining, 9th Scientific Conference for

Information Systems and Information Technology (ISIT02), Feb. 2002.

Gregorius S. Budhi, memperoleh gelar S.T. dari Teknik Elektro ITATS Surabaya

tahun 1993. Tahun 2001 memperoleh gelar M.T. dari Teknik Informatika ITS Surabaya.

Saat ini sebagai staf pengajar tetap Teknik Informatika UK Petra, Surabaya.

Ibnu Gunawan, memperoleh gelar S.T. dari Teknik Elektro UK Petra Surabaya tahun

2002. Saat ini sebagai staf pengajar tetap Teknik Informatika UK Petra, Surabaya.

Ferry Yuwono, memperoleh gelar S.Kom dari Teknik Informatika UK Petra Surabaya

tahun 2005. Saat ini sebagai staf di departemen IT sebuah perusahaan di Surabaya.

10

http://homepages.wmich.edu/~m5elwakil/SCISIT02_ElWakil.pdf

http://www.cs.utexas.edu/users/inderjit/

ferry yuwono. penggunaan metode market basket analysis untuk

Documents