ir 08 evaluation in ir

Download Ir 08 Evaluation in Ir

Post on 27-Jun-2015

175 views

Category:

Documents

4 download

Embed Size (px)

TRANSCRIPT

information retrieval

Deddy Wijaya Suliantoro, S.Kom.

review [1]Kita sudah melihat beberapa metode retrieval dimulai dari boolean model, TCM,VSM, EBM sampai ke language modeling. Masalah 1 Bagaimana kita tahu metode mana yang sesuai dengan masalah mana. Masalah 2 Perlukah memakai stemming? Perlukah memakai stopwordlist? Perlukah normalisasi token?

review [2]Masalah 3 Apakah perlu kita memakai nilai idf yang dinormalisasi? Atau tidak? Kuliah hari ini membicarakan bagaimana mengukur keefektifan suatu sistem IR, termasuk metode-metode evaluasi hasil IR.

Evaluasi Sistem IR [1]

Untuk mengukur keefektifan ad-hoc IR, kita memerlukan test collection yang terdiri dari 3 macam:

koleksi dokumen tes information needs (yang diekspresikan sebagai query) Sebuah set penentuan relevansi

Pendekatan standar dalam mengevaluasi sebuah sistem IR adalah relevansi sebuah dokumen Dengan pengecekan seluruh isi dokumen, semua koleksi dokumen akan diklasifikasi menjadi 2: dokumen relevan dan tidak relevan.

Evaluasi Sistem IR [2]

Penentuan relevansi yang hanya membagi dokumen menjadi 2 ini (relevan dan non-relevan) disebut sebagai binary relevance judgement. Pengecekan tersebut dilakukan secara manual dan sering disebut sebagai gold standard atau ground truth judgement Pengecekan ini harus dilakukan dalam jumlah yang besar dan beragam karena hasil retrieval akan berbeda untuk dokumen berbeda dan information needs yang berbeda.

Evaluasi Sistem IR [3]

Bagaimana suatu dokumen ditentukan relevan atau tidak? Ditentukan dari information needs-nya, bukan dari query-nya. Tidak berarti suatu dokumen yang memuat semua isi query adalah dokumen yang relevan.

Standard Test CollectionBerikut ini adalah beberapa test collection dan evaluasi-evaluasi yang sudah dilakukan oleh beberapa lembaga. Cranfield pioner, tahun 1950an TREC dilakukan oleh NIST, sejak 1992 CLEF European Language Reuters Text Classification

Evaluation dari Unranked Retrieval

2 pengukuran dasar dan paling sering digunakan adalah precision dan recallPrecision adalah: Bagian dari dokumen te-retrieve yang relevan. Recall adalah: bagian dari dokumen relevan yang te-retrieve.

Precision & Recall

Precision & Recall

Gambar di atas adalah merupakan gambar tabel ketergantungan untuk menghitung nilai precision dan recall. Rumusnya:

Precision, Recall, & Accuracy

Jumlah dokumen (N) yang dipakai di dalam korpus dihitung dari tp + fp + tn + fn. Alternatif yang dapat digunakan untuk mengevaluasi adalah menghitung accuracy. Accuracy didapat dari (tp+tn)/N.

Precision, Recall, & Accuracy

Latihan: Sebuah sistem IR mengembalikan 8 dokumen relevan dan 10 dokumen non-relevan dari total 20 dokumen relevan yang ada dari 60 dokumen dalam korpus. Hitung precision, recall, dan accuracy-nya! (Gunakan tabel ketergantungan untuk mempermudah Anda)

Precision, Recall, & AccuracyMuncul anggapan yang mengatakan bahwa precision, recall, serta accuracy belum merupakan pengukur yang baik untuk evaluasi Alasannya:

Nilai precision dan recall memiliki trade-off. Nilai accuracy tidak mempertimbangkannya. Perbedaan kebutuhan user akan precision dan recall.

Perhitungan lain selain accuracy yang memperhitungkan trade-off dari precision dan recall adalah F measure

F Measure

Rumus di atas adalah rumus perhitungan F Measure yang mempertimbangkan precision, recall, dan nilai sebagai pemberat. Nilai =0.5 berarti pemberat untuk precision 2x lipat Nilai = 2 berarti pemberat untuk recall 2x lipat

F MeasureNilai = 1 berarti precision dan recall dianggap setara. Nilai = 1 ini sering ditulis menjadi F1, singkatan dari F=1 . Hasil perhitungannya sering disebut juga sebagai balanced F-score Jadi Apa keuntungan menggunakan F Measure dibandingkan dengan accuracy?

Evaluation dari Ranked RetrievalPrecision dan Recall di atas dapat dipakai saat kita hanya mengevaluasi sebuah sistem tanpa mempertimbangkan tingkat relevansi suatu dokumen (ranked retrieval) Kita bisa menggunakan precision-recall curve untuk mengevaluasi hasil dari sebuah ranked retrieval. (Mempertimbangkan ranking dari dokumen hasil retrieval)

Evaluation dari Ranked Retrieval

Misalkan ada 10 dokumen relevan untuk query q: Rq = {d3, d5, d9, d25, d39, d44, d56, d71, d89, d123} Setelah diberikan query q kepada sistem, maka sistem itu mengembalikan 15 dokumen dengan urutan ranking sebagai berikut:

Evaluation dari Ranked Retrieval

Dokumen d123 ada di tingkat recall 10%, dan berada di peringkat pertama. (1 dokumen relevan dan 0 dokumen non-relevan). Berarti, precision di recall 10% adalah 100%

Evaluation dari Ranked Retrieval

Dokumen d56 ada di tingkat recall 20%, dan berada di peringkat ketiga. (2 dokumen relevan dan 1 dokumen non-relevan). Berarti, precision di recall 20% adalah 2/3 = 66%

Evaluation dari Ranked Retrieval

Dokumen d9 ada di tingkat recall 30%, dan berada di peringkat keenam. (3 dokumen relevan dan 3 dokumen non-relevan). Berarti, precision di recall 30% adalah 3/6 = 50%

Evaluation dari Ranked Retrieval

Hitung precision untuk tingkat recall 40% dan 50%!

Evaluation dari Ranked Retrieval

Ini adalah precision-recall curve yang didapat dari perhitungan interpolated precision

Evaluation dari Ranked RetrievalBagaimana kalau ada 100 dokumen relevan dalam korpus? Apakah kita harus menghitung precision dari tiap dokumen relevan yang ditemukan? (tingkat recall 1%, 2%, 3%, , 100%) eleven-point interpolated average precision tingkat recall 0%, 10%, 20%, 30%, , 100% Bagaimana untuk 3 dokumen relevan saja?

Evaluation dari Ranked RetrievalContoh: Rq = {d3, d56, d129} Kembalian sistem misalkan sama dengan contoh di atas:

Evaluation dari Ranked Retrieval

Berarti ada 3 tingkat recall 33,3%, 66,6%, dan 100%. Silahkan hitung untuk masing-masing tingkat recall!

Evaluation dari Ranked RetrievalTingkat recall 33,3% precision 33,3% Tingkat recall 66,6% precision 25% Tingkat recall 100% precision 20%

Evaluation dari Ranked Retrieval

Ada 5 dokumen relevan Hasil retrieved seperti gambar di atas Buat curve-nya!

Evaluation dari Ranked Retrieval

Dalam pengevaluasian, tidak dilakukan dengan satu set query saja, maka akan dihitung rata-rata precision untuk tiap level recall.

Dari dua contoh di atas, average precision untuk tingkat recall 20% adalah: (66,6%+33,3%)/2 = 49.95%

Any Questions ??

Deddy Wijaya Suliantoro, S.Kom.

( ! ) notificationJangan lupa, minggu depan adalah presentasi Project-2. Presentasi akan dibagi dalam 2 pertemuan (seperti project 1) Urutan akan sekali lagi diacak Harap disiapkan sebaik-baiknya. Perlu diingat, mini 2 juga dikumpul paling lambat Selasa depan (9 November 2010)

( ! ) notificationProject 3 IR: Presentasi Metode Klasifikasi n Clustering (Kelompok) pertemuan terakhir dan satu pertemuan tambahan. Silahkan cari salah satu metode klasifikasi/clustering yang akan dipresentasikan, kumpulkan paling lambat hari Selasa depan. Bisa mengumpulkan via sms, e-mail, ataupun bertemu langsung.