1 pengenalan capaian... · web viewbahasa pertanyaan capaian data adalah lebih kepada jenis olahan,...

23
Bab 3 Pengenalan Capaian Maklumat 1.0 Pengenalan. Peningkatan jumlah bilangan pernerbitan, CD-ROM dan kepopularan internet menyebabkan banyak maklumat yang boleh dicapai. Jelas bahawa pencapaian maklumat dari internet ini atau perpustakaan digital adalah lebih sukar berbanding yang lain. Implikasi daripada ini, keperluan terhadap teknik-teknik yang terbaik bagi mencapai maklumat telah dikaji dalam bidang capaian maklumat. Bidang capaian maklumat semakin berkembang maju dari hari ke hari. Micheal Lesk membahagikan era teknologi maklumat kepada tujuh era iaitu : Childhood (1945-1955) The SchoolBoy (1960s) AdultHood(1970s) Maturity (1980s) MidLife Crisis (1990s) Fulfillment (2000s) Retirement (2010) Maklumat lanjut rujuk kertas kerja yang bertajuk : The Seven Ages Of Information Retrieval Capaian maklumat bukanlah bidang yang baru tetapi ia merupakan suatu bidang yang semakin penting dan mencabar pada 1

Upload: others

Post on 11-Jan-2020

4 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

1.0 Pengenalan.

Peningkatan jumlah bilangan pernerbitan, CD-ROM dan kepopularan internet menyebabkan

banyak maklumat yang boleh dicapai. Jelas bahawa pencapaian maklumat dari internet ini

atau perpustakaan digital adalah lebih sukar berbanding yang lain. Implikasi daripada ini,

keperluan terhadap teknik-teknik yang terbaik bagi mencapai maklumat telah dikaji dalam

bidang capaian maklumat.

Bidang capaian maklumat semakin berkembang maju dari hari ke hari. Micheal Lesk

membahagikan era teknologi maklumat kepada tujuh era iaitu :

Childhood (1945-1955)

The SchoolBoy (1960s)

AdultHood(1970s)

Maturity (1980s)

MidLife Crisis (1990s)

Fulfillment (2000s)

Retirement (2010)

Maklumat lanjut rujuk kertas kerja yang bertajuk : The Seven Ages Of Information Retrieval

Capaian maklumat bukanlah bidang yang baru tetapi ia merupakan suatu bidang yang

semakin penting dan mencabar pada masa kini terutamanya dalam mencari penyelesaian yang

sesuai dalam menangani masalahnya. Masalah capaian maklumat mungkin disebabkan oleh

maklumat yang salah tafsir disebabkan oleh pelbagai makna bahasa asli atau keperluan

maklumat yang diperlukan oleh pengguna tidak dinyatakan dengan jelas.

Istilah capaian maklumat mempunyai definasi yang besar dan sukar untuk

didefinasikan secara kukuh. Dalam konteks ini maklumat, dalam maksud teknikal yang

diberikan dalam teori komunikasi Shannon ialah tidak sedia terukur (Shannon dan Weaver

(1964)). Dalam kebanyakan kes, seseorang boleh mendefinasikan jenis capaian dengan hanya

menukarkan ‘maklumat’ dengan ‘dokumen’.

1

Page 2: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

Menurut Tengku(1989), capaian maklumat adalah satu pengajian cara korpus suatu

simpanan maklumat ditentukan dan dicapai bersarkan kehendak tertentu. Capaian makluamt

adalah berkenaan perwakilan , penstoran , perorganisasian dan perolehan maklumat mengikut

pertanyaan atau kueri dan keperluan pengguna. Ianya satu landasan yang menyediakan

kemudahan kepada pengguna bagi maklumat yang dikehendaki. Dengan kata lain, sistem

capaian maklumat adalah suatu sistem yang memproses pertanyaan pengguna bagi mendapat

maklumat yang relevan dari pangkalan data.

Sistem capaian maklumat adalah memangkat dokumen terhadap sesuatu pertanyaan.

Sesuatu dokumen dikatakan relevan jika ianya bersamaan dengan kehendak pengguna

terhadap sesuatu topik. Contoh sistem capaian maklumat, adalah seperti enjin carian

maklumat Internet (Yahoo, Goggle, WebCrawler) MEDLINE dan lain-lain lagi.

Sistem capaian maklumat dapat diillustrasi seperti rajah dibawah (van Rijsbergen,

1979). Ia terdiri daripada tiga bahagian iaitu input, pemproses dan output.

Rajah 1: Asas Sistem Capaian Dokumen

Bermula dari bahagian input, ia terdiri daripada kueri dan dokumen. Masalah di

bahagian ini ialah dalam mendapatkan perwakilan bagi setiap dokumen dan pertanyaan yang

sesuai untuk kegunaan komputer. Maklumbalas merupakan perubahan pertanyaaan oleh

pengguna semasa satu sesi pencarian di dalam sistem capaian maklumat atas talian. Langkah

ini bertujuan untuk meningkatkan capaian maklumat yang sebelum ini.

2

MAKLUMBALAS

KUERI INPUT OUTPUT

DOKUMEN

PEMPROSES

Page 3: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

Bahagian kedua iaitu pemproses adalah bahagian yang berkenaan dengan proses

capaian. Proses ini boleh terdiri daripada mengkelasifikasi maklumat dan melaksanakan

strategi pencarian maklumbalas dari kueri.Bahagian yang terakhir iaitu output adalah

merupakan bahagian yang akan memaparkan satu set senarai dokumen.

Bagi Agusti (2000), beliau menyatakan fasa utama bagi pemprosesan capaian maklumat

secara umumnya, sama ada capaian secara automatik keseluruhannya atau sebahagian sahaja

dengan sokongan peralatan perisian ialah

Pengumpulan Dokumen

Pengindeksan

Pencarian

Pengurusan dokumen dan kueri

Ini digambarkan melalui gambarajah berikut :

Maklumat lanjut boleh rujuk kertas kerja “Information Retrieval on The Web”

3

Page 4: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

2.0 Perbezaan di antara Capaian Data, Capaian Maklumat dan Sistem Maklumat

Lain.

Capaian maklumat dan capaian data adalah berbeza melalui beberapa kriteria. Perbezaan ini

walaupun kabur, tetapi ianya penting bagi dalam menggambarkan darjah kemkompeksan

yang berhubung dengan kedua-dua jenis capaian tersebut.

Perbezaan di antara capaian maklumat dan capaian data boleh dilihat daripada jadual

di bawah :

Deskripsi Capaian Data Capaian Maklumat

Padanan Padanan Tepat Padanan Separa

Inference Deduksi Induksi

Model Berketentuan

(Deterministic)

Kebarangkalian

(Probabilistic)

Klasifikasi Monotetik Politetik

Bahasa Pertanyaan Olahan / Buatan Tabii

Spesifikasi Pertanyaan Lengkap Tidak lengkap

Item yang Dikehendaki Berpadanan Relevan

Ralat maklumbalas Sensitif Tidak Sensitif

Jadual 1: Rajah Perbandingan Capaian Data dan Capaian Maklumat

Pada kebiasaannya, dalam capaian data pengguna akan melihat kepada padanan tepat

iaitu kita memastikan sama ada item wujud atau tidak di dalam fail. Bagi capaian maklumat,

perkara tersebut mungkin di ambil berat tetapi secara umumnya, pengguna ingin mencari item

yang berpadanan separa dengan permintaan dan kemudian, memilih daripada senarai padanan

yang diberikan.

4

Page 5: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

Inference yang digunakan dalam capaian data adalah deduktif mudah di mana aRb dan

bRc dan aRc. Bagi capaian maklumat, inference induktif digunakan; hubungan hanya

dinyatakan dengan darjah ketentuan atau tidak ketentuan dan dengan ini keyakinan pada

inference adalah berubah-ubah. Perbezaan ini menyebabkan capaian data dikatakan

berketentuan manakala capaian maklumat adalah berkebarangkalian.

Capaian data lebih kepada klasifikasi monotetik (monothetic) iaitu kelas yang

dinyatakan oleh objek yang mewarisi atribut, kedua-duanya mestilah mempunyai kelas.

Klasifikasi sedemikian tidak begitu berguna dalam capaian maklumat, akan tetapi klasifikasi

politetik (polythetic) lebih digunakan. Dalam klasifikasi tersebut, sesuatu individu dalam

kelas hanya mewarisi sebahagian daripada kesemua atribut yang diwarisi oleh keseluruhan

ahli di dalam kelas. Dengan yang demikian tiada atribut yang dimestikan bagi keahlian

sesuatu kelas.

Bahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan

sistaks dan tatabahasa yang terhad, manakala capaian maklumat menggunakan bahasa tabii

walaupun terdapat beberapa pengecualian.

Dalam capaian data, pertanyaan secara umumnya adalah spesifikasi yang lengkap

mengenai apa yang dikehendaki oleh pengguna berbanding dengan capaian maklumat yang

pelbagai dan tidak lengkap. Ini adalah kerana dalam capaian maklumat, kita mencari

dokumen yang relevan dan ini berbeza dengan capaian data yang memerlukan padanan hasil

yang tepat. Dengan ini, sistem capaian data lebih sensitif kepada ralat di mana ralat dalam

padanan tidak akan mencapai item yang dikehendaki yang membawa kepada kegagalan

keseluruhan sistem. Bagi capaian maklumat, ralat yang kecil dalam padanan tidak memberi

kesan kepada prestasi sistem.

5

Page 6: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

Perbezaan sistem capaian maklumat (IR) dan sistem maklumat yang lain

Data Operasi Saiz Pangkalan Data

IR Dokumen / Halaman Web

Capaian (berkebarangkalian)

Kecil hingga besar

DBMS (hubungan)

Jadual Capaian (berketentuan) Kecil hingga besar

Sistem Cerdas (AI)

Logik inferens Kecil

Perbezaannya

Jumlah struktur data yang boleh dapat digunakan.

Capaian dalam sistem IR adalah bersifat berkeberangkalian iaitu tidak dapat ditentukan

bahawa dokumen yang dicapai dapat memenuhi kehendak pengguna.

Persamaan antara IR dan DBMS

Pangkalan data yang besar.

Kemeruapan (volatility) iaitu applikasi boleh berubah apabila berlaku panambahan,

penukaran dan penghapusan dokumen dalam pangkalan data.

3.0 Penilaian Sistem Capaian Maklumat

Penilaian terhadap sistem capaian terbukti bahawa ia merupakan satu tugasa yang sukar. Di

dalam kertas kerja Senko, beliau telah menyatakan bahawa ‘tanpa ragu-ragu sistem penilaian

adalah bahagian yang paling sukar di dalam sistem capaian storan maklumat…’. Terdapat

banyak kaedah yang telah dikemukakan untuk menilai kebolehan sistem capain maklumat.

Namun demikian, sistem capaian maklumat sering dinilai berdasarkan dapatan semula dan

ketepatan yang dikemukakan oleh Lesk dan Salton.

Sistem capaian maklumat memberikan nilai kesamaan koefisyen atau pangkat sebagai

penganggaran kerelevanan kepada sesuatu dokumen. Ini membenarkan pengguna

mengimbangi antara nilai ketepatan dan dapatan semula.

6

Page 7: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

Dapatan semula = Dokumen relevan dicapai

Jumlah dokumen relevan

Ketepatan = Dokumen relevan dicapai

Jumlah dokumen dicapai

Secara ideanya, pengguna mahukan 100% ketepatan dan 100% dapatan semula tetapi

ini sukar dicapai secara realiti. Sistem yang baik mungkin mencapai sama ada :

1) 80% ketepatan dan 20% dapatan semula – mencapai hanya sebilangan kecil

dokumen relevan

2) 20% ketepatan dan 80% dapatan semula – mencapai banyak dokumen yang tidak

relevan.

Rajah 2: Perbezaan di antara ketepatan dan dapatan semula

Rajah di atas menunjukkan kebolehan tiga sistem hipotetikal (hypothetical) capaian

maklumat. Dari sini, dapat dilihat dengan meningkatkan jumlah ketepatan, jumlah dokumen

yang banyak dapat di capai.

7

100%

100%

Top 1000

Top 100

Top 10

Dapatan semula

Ketepatan

Page 8: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

4.0 Isu Keefisyenan

Isu keefisyenan lebih menekan kepada alkhwarizmi yang mana yang kurang mengguna ruang

ingatan dan masa. Di antara kaedah yang selalu digunakan adalah fail songsang atau indeks

songsang, pemprosesan pertanyaan dan signature files.

Penggunaan indeks adalah untuk meningkatkan kelajuan dan keefisyenan di dalam

pencarian dokumen. Indeks songsang mempunyai dua komponen iaitu satu senarai perkataan

yang dirujuk sebagai perkataan dan satu senarai yang dirujuk sebagai posting list. Posting

list adalah senarai terpaut yang mempunyai hubungan bagi setiap perkataan.

Teknik yang selalu digunakan untuk mencari indeks songsang ialah senarai yang

tersusun (sorted list) atau jadual cincang (hash table). Setip perkataan mempunyai Zipf

Distribution. Zipf Distribution adalah satu peninjauan frekuensi kewujudan sesuatu perkara

sebagai suatu fungsi pemangkatan di mana pemangkatan ini ditentukan oleh frekunsi

kewujudan di atas.

Pemprosesan pertanyaan adalah satu kaedah menyusun pertanyaan dengan

mengurangkan idf (inverse document frequency). Manakala signature file mewakilkan

dokumen sebagai vektor bit yang mempunyai panjang yang tetap.

5.0 Strategi dan Utiliti

Beberapa taxanomi model konsep sistem maklumat telah dikemukakan. Dia antaranya, seperti

Falaoutsos (1985) menyatakan sistam capaian maklumat kepada tiga asas pendekatan iaitu

pencarian corak teks (text pattern search), pencarian fail songsang dan signature search.

Manakala Belkin dan Croft (1987) membahagikan teknik capaian kepada padanan tepat dan

padanan separa (padanan yang terbaik).

8

Page 9: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

Rajah 3: Pengkelasan Teknik Capaian

Kesemua taxanomi yang dinyatakan bukanlah eksklusif dan satu sistem capaian

maklumat mungkin mengandungi lebih daripada satu aspek yang dinyatakan.

Namun di dalam laporan ini, sistem capaian maklumat cuba dilihat dari segi strategi

dan utiliti. Kedua-dua perkara ini adalah berkait rapat. Strategi capaian adalah teknik–teknik

yang akan mengganggar kerelevanan dokumen dan juga dokumen relevan ini mempunyai

perkataan yang berpadanan dengan pertanyaan. Strategi capaian dapat dibahagikan kepada

tiga pendekatan iaitu

i) manual

Teknik-teknik capaian maklumat yang tergolong dalam pendekatan secara manual

adalah capaian Boolean, set Fuzzy dan inference network. Pendekatan secara manual

memerlukan pengguna menentukan perkataan yang menjadikan sesuatu dokumen tersebut

relevan. Kadang kala, pengguna juga perlu mengumpukkan pemberat kepada perkataan bagi

mendapatkan susunan berbentuk peringkat (ranking).

ii) automatik

Pendekatan secara automatik akan meletakkan skor kerelevanan terhadap dokumen

yang dicapai berdasarkan frekuensi perkataan (term frequency) dan frekunsi fail songsangan

(inverse document frequency). Sesebuah dokumen dianggap relevan sekiranya ia mempunyai

9

Teknik Capaian

Padanan Tepat Padanan Separa

Corak Teks Pencarian Boolean Kebarangkalian Ruang Clustering ….. Vektor

Page 10: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

perkataan yang sama di dalam pertanyaan. Frekunsi perkataan dapat dianggar dengan mengira

perkataan yang terdapat di dalam pangkalan data. Teknik yang popular dalam pendekatan ini

adalah capaian ruang vektor ( vector space model ).

iii) adaptif.

Sistem capaian maklumat yang menggunakan pendekatan secara adaptif berfungsi

dengan mempelajari alkhwarizmi berasaskan satu set contoh latihan. Teknik-teknik capaian

maklumat yang tergolong dalam pendekatan secara penyesuaian adalah seperti

kebarangkalian, rangkaian neural dan alkhwarizmi genetik.

Utiliti capaian adalah teknik yang dapat mengecam makna perkataan di dalam

dokumen dan pertanyaan seperti yang dikehendaki oleh pengguna. Utiliti capaian dapat

dibahagikan kepada beberapa pendekatan iaitu

i) perkataan yang berbeza bentuk

Di antara teknik yang tergolong di dalam pendekatan ini adalah teknik pengakar dan

teknik n-gram. Teknik pengakar merupakan satu teknik yang mengasingkan imbuhan

berdasarkan satu set peraturan agar memperolehi kata akar bagi ssesuatu perkataan. Set

peraturan yang dimaksudkan adalah bergantung kepada bahasa.

Teknik n-gram adalah satu teknik perkiraan yang dilakukan pada pasangan perkataan

berdasarkan sub-perkataan ynag unik. Dua perkataan yang hendak dipadan akan dipecahkan

kepada turutan unit perkataan yang lebih kecil. Kadar keserupaan dua perkataan yang cuba

dipadankan ditentukan dengan mendapatkan bilangan unit yang wujud pada kedua-dua

perkataan tersebut.

10

Page 11: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

ii) Sinonim

Pendekatan secara sinonim merupakan satu teknik yang dapat memadankan dua

perkataan yang berlainan tetapi mempunyai maksud yang sama. Pendekatan secara sinonim

ini boleh dibahagikan kepada dua iaitu sinonim secara manual dan sinonim secara automatik.

Teknik yang tergolong dalam sinonim secara manual adalah tesaurus dan rangkaian

semantik. Tesaurus adalah satu set hubungan sesuatu perkataan. Manakala rangkaian

semantik menerangkan hubungan di antara sesuatu perkataan. Pembinaan tesaurus dan

rangkaian semantik secara manual adalah mahal dan kemungkinan tertinggal beberapa

perkataan.

Teknik yang tergolong dalam sinonim secara automatik adalah maklumbalas berkaitan

(relevance feedback), clustering dan latent semantic indexing. Teknik Teknik maklumbalas

berkaitan adalah teknik yang menjanakan pertanyaan baru berdasarkan perkataan yang

diperolehi daripada dokumen teratas dalam susunan berperingkat. Teknik clustering pula

mengumpul dokumen-dokumen yang relevan berdasarkan kesamaan. Bagi teknik latent

semantic indexing terlalu mahal untuk kegunaan pratikal.

iii) pendekatan perkataan (term proximity)

Teknik-teknik yang tergolong dalam pendekatan perkataan adalah capaian

berdasarkan perenggan (passage-based retrieval), frasa(phrases) dan parsing. Dokumen di

dalam teknik capaian berdasarkan perenggan akan dibahagikan kepada seksyen dan disusun

secara berperingkat satu demi satu.

Teknik frasa akan mengganggap pasangan perkataan sebagai satu terminologi.

Manakala teknik parsing akan mengenalpasti bahagian ucapan dan dianggap sebagai satu

terminologi.

Teknik–teknik yang terdapat dalam utiliti capaian ini boleh digabung dengan mana strategi

capaian bagi menjadikan sistem capaian maklumat lebih berkesan.

11

Page 12: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

6.0 Integrasi Struktur Data dan Teks Dalam Sistem Pengurusan Hubungan

Pangkalan Data

Pelbagai teknologi baru dalam rangkaian dan pangkalan data telah dibangunkan secara

berasingan. Bagi rangkaian contohnya adalah Internet manakala pangkalan data adalah sistem

pengurusan hubungan pangkalan data.

Storan data bagi Internet adalah berbentuk fail rata (flat file) dan dari segi pengurusan

fail data ia terdapat beberapa kelemahan di antaranya halaman HTML sukar di pertingkatkan

dan sistem fail hanya menyediakan fungsi primitif seperti operasi buka/tutup , baca/tulis ke

atas data mentah.

Sistem pangkalan data menyediakan perisian sistem yang dibangunkan untuk

menyimpan, memanipulasi dan mengurus data secara efisyen dan boleh dipercayai. Dengan

mengintegrasikan sistem pengurusan hubungan pangkalan data dengan internet, pelayan Web

dapat ditingkatkan di antaranya enjin pemprosesan dinamik dan perwakilan dan organisasi

konsep entiti data hubungan dapat menghampiri alam nyata.

7.0 Pemprosesan Selari dan Tertabur

Pemprosesan selari dan tertabur dianggap sebagai dua teknik yang dapat mengurangkan masa.

Pemprosesan selari merupakan pembahagian tugas atau pangkalan data kepada beberapa

pemproses. Pendekatan ini lebih kepada penggunaan mesin.

Kajian pemprosesan tertabur kurang dilakukan. Pemprosesan tertabur dianggap

pangkalan data berada secara bertaburan iaitu Web. Robot atau spider iaitu satu program

yang ditugaskan mencari URL di dalam Web.

12

Page 13: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

8.0 TREC

Pada tahun 1992, TREC telah dibangunkan sebagai sebahagian daripada program TIPSTER

Text yang dibiayai oleh National Institute of Standard and Technology (NIST) dan Defense

Advanced Research Projects Agency (DARPA). TREC adalah singkatan bagi Text Retrieval

Conference, dilihat sebagai satu komuniti program yang terdiri daripada perwakilan

kerajaan , industri dan pihak akademik.

Tujuan TREC dibina adalah untuk menyokong kajian di dalam komuniti capaian

maklumat dengan menyediakan infrastruktur yang diperlukan bagi penilaian skala besar

metodologi capaian teks. Kebiasaanya, matlamat bengkel kerja TREC adalah

menggalakkan kajian capaian maklumat menggunakan koleksi ujian yang besar

meningkatkan komunikasi di antara industri, pihak akademik dan kerajaan dengan

mewujudkan forum terbuka bagi penukaran idea-idea kajian

bagi mempercepatkan penukaran teknologi dari kajian makmal kepada produk komersil

yang mendemonstrasi kemajuan dalam metodologi capaian masalah alam nyata

bagi meningkatkan kebolehan teknik penilaian dan pembangunan teknik penilaian yang

baru yang sesuai yang boleh digunakan oleh industri dan pihak akademik

Bagi setiap TREC, NIST akan menyediakan satu set ujian dokumen dan soalan.

Peserta akan melarikan data yang dipeolehi pada setiap capaian dan kembali kepada NIST

dengan satu senarai capaian pemangkatan dokumen yang teratas. NIST akan mengumpul

keputusan individu, menilai dokumen yang dicapai untuk pembetulan dan menilai keputusan.

Kitaran TREC berakhir dengan satu bengkel kerja iaitu forum bagi peserta berkongsi

pengalaman mereka. Dengan kata laian, TREC adalah penilaian tahunan sistem capaian

maklumat menggunakan satu set dokumen yang piawai, kueri dan penilaian relevan.

13

Page 14: 1 Pengenalan Capaian... · Web viewBahasa pertanyaan capaian data adalah lebih kepada jenis olahan, dengan penggunaan sistaks dan tatabahasa yang terhad, manakala capaian maklumat

Bab 3 Pengenalan Capaian Maklumat

9.0 KESIMPULAN

Setalah diperhatikan sistem capaian maklumat merupakan suatu bidang yang penting dan

mencabar pada masa kini. Kelakuan dan kemahuan pengguna yang selalu berubah

menyebabkan pelbagai teknik capaian telah dikaji dna dinilai. Namun laporan ini tidak dapat

mengupas segalanya, hanyalah sekadar penerangan asas. Kupasan yang lebih terperinci akan

dilihat dalam laporan yang akan datang.

RUJUKAN

Kulothukan a/l Palasundram (1998). Kajian Teknik-teknik Padanan Perkataan dan

Pembangunan Perisian Penterjemahan Istilah Inggeris-Melayu. Universiti Kebangsaan

Malaysia

http: //www.ida.liu.se/labs//iislab/courses/IRIF/IRIF_introduktion.html

http://www. ir.iit.edu/`ophir/slides/

http://trec.nist.gov/faq.html

http://www.npac.syr.edu/users/gcheng/homepage/thesis/node35.html

Tengku Mohd T.S. 1989. Logical–linguistics model and experiments in document retrieval.

Tesis Doktor Falsafah. Universiti of Glasgow

Van Rijsbergen, Information Retrieval, University of Glasgow.

14