pengenalan menyeluruh. pengenalan 2003 16.5 bil laman web 3 bil laman / 59gb teks dimuat setiap...

53
Pengenalan Menyeluruh

Post on 21-Dec-2015

225 views

Category:

Documents


5 download

TRANSCRIPT

Page 1: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Pengenalan Menyeluruh

Page 2: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Pengenalan

• 2003 16.5 bil Laman web

• 3 bil laman / 59GB teks dimuat setiap hari

• Hayat 44 hari

• 10MB/s teks : connection capable to downloading

Page 3: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Pengenalan

• Nov 97 : AltaVista handle 20 bil queries per day

Page 4: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Apa itu enjin gelintar ?

Enjin gelintar ialah suatu program yang digunakan untuk mencari dan mencapai maklumat berdasarkan kepada sebutan gelintaran (search terms) yang diberi oleh pengguna. Ia membenarkan pengguna menjelajah pangkalan data yang mengandungi teks terdiri daripada berjuta-juta di laman web. Apabila perisian enjin gelintar dapat padankan maklumat yang dicari (hits), ia akan menerangkan dimana pautan maklumat terdapat dan seterusnya pengguna akan terus menjelajah.

search engine -- (a computer program that retrieves documents or files or data from a database or from a computer network (especially from the internet))

Page 5: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Query String

IRSystem

RankedDocuments

1. Page12. Page23. Page3 . .

Documentcorpus

Web Spider

Pengenalan

Page 6: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Pengenalan

Page 7: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Pengenalan

Page 8: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Pelayan Google

Pelayan UKM

FTSMURL

URL

Pengenalan

Page 9: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

klien

Enjin kueri pemangkatan

Modul Himpunan Analisis

Repositori laman

Indeks: kemudahan struktur teks

Modul Kawalan Lelabah

WWW

Lelabah

Modul Indeks

Maklumbalas pengguna

kuerikeputusan

Senibina Enjin Carian (Arasu et.al 2001)

Page 10: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Enjin Gelintar

Empat komponen Asas

Pangkalan data rujukan kepada laman web Robot pengindeksan yang mejelajah WWW Antaramuka

Membolehkan pengguna untuk hantar kueri

Memaparkan hasil yang diperolehi Sistem Capaian Maklumat

Page 11: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

SISTEM PENCARIAN DAN CAPAIAN DOKUMEN

Apa itu maklumat ?

Teori Maklumat

Kitar Hayat Maklumat

Page 12: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Information Hierarchy

Wisdom

Knowledge

Information

Data

Data The raw material of

information Information

Data organized and presented by someone

Knowledge Information read, heard or

seen and understood Wisdom

Distilled and integrated knowledge and understanding

Page 13: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Maklumat

Where is the Life we have lost in living?Where is the wisdom we have lost in knowledge?Where is the knowledge we have lost in information?

-- T.S. Eliot, “The Rock”

Where is the information we have lost in data?

Page 14: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Apa itu maklumat

Tidak ada definisi yang tepat Berbeza mengikut bidang : philosophy, psychology,

signal processing, physics Oxford English Dictionary

information: informing, telling; thing told, knowledge, items of knowledge, news

knowledge: knowing familiarity gained by experience; person’s range of information; a theoretical or practical understanding of; the sum of what is known

Kamus Dewan Knowledge in the form of facts

Page 15: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Teori Maklumat

Disebut “Communication Theory” Communication may be over time and space

Noise

Source DecodingEncoding Destination

Message Message

Channel

StorageSourceDecoding

(Retrieval/Reading)Encoding

(writing/indexing)Destination

Message Message

Page 16: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Information Life Cycle

Creation

Utilization Searching

Active

Inactive

Semi-Active

Retention/Mining

Disposition

Discard

Using Creating

AuthoringModifying

OrganizingIndexing

StoringRetrieval

DistributionNetworking

AccessingFiltering

Page 17: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Authoring/Modifying

Converting Data+Information+Knowledge to New Information. Creating information from observation, thought. Editing and Publication.

Collecting and Integrating information. Affects Data, Information and Metadata. Indexing

Organizing/Indexing

Page 18: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Storing/Retrieving

Information Storage How and Where is Information stored?

Retrieving Information. How is information recovered from storage How to find needed information Linked with Accessing/Filtering stage

Distribution/Networking Transmission of information

How is information transmitted? Networks vs Broadcast.

Page 19: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Accessing/Filtering

Using the organization created in the O/I stage to: Select desired (or relevant) information Locate that information Retrieve the information from its storage location (often

via a network)

Using/Creating Using Information. Transformation of Information to Knowledge. Knowledge to New Data and New Information.

Page 20: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Creation

Utilization Searching

Active

Inactive

Semi-Active

Retention/Mining

Disposition

Discard

Using Creating

AuthoringModifying

OrganizingIndexing

StoringRetrieval

DistributionNetworking

AccessingFiltering

Sistem Pencarian Dan Capaian Dokumen

Page 21: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Pengenalan

Micheal Lesk membahagikan era teknologi maklumat kepada tujuh era iaitu :

Maklumat lanjut rujuk kertas kerja yang bertajuk : The Seven Ages Of Information Retrieval

Childhood (1945-1955)The SchoolBoy (1960s)AdultHood(1970s)Maturity (1980s)MidLife Crisis (1990s)Fulfillment (2000s)Retirement (2010)

Page 22: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

SISTEM PENCARIAN DAN CAPAIAN DOKUMEN (MAKLUMAT)

Definisi CM Komponen Asas CM Teknik Carian Maklumat Berasas Katakunci Teknik Carian dan Capaian Maklumat

Page 23: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Definisi

Menurut Tengku(1989), capaian maklumat adalah

satu pengajian cara korpus suatu simpanan maklumat ditentukan dan dicapai berdasarkan kehendak tertentu.

berkenaan perwakilan , penstoran , perorganisasian dan perolehan maklumat mengikut pertanyaan atau kueri dan keperluan pengguna

Page 24: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Untuk sistem capaian maklumat, 3 elemen asas yang diperlukan (Brown, 1996).

Perwakilan Dokumen (representasi): dokumen yang menyediakan penerangan maklumat secara formal yang terdapat dalam sesuatu dokumen.

Perwakilan pertanyaan (query): menyediakan penerangan mengenai maklumat yang diperlukan

Pengukuran yang berkaitan di antara pertanyaan dan dokumen: menyediakan suatu tatacara atau prosedur untuk memadankan antara keperluan maklumat dengan dokumen bagi memenuhi keperluan tersebut.

Definisi

Page 25: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Definisi

D : set perwakilan dokumenQ : set perwakilan kehendak pengguna (kueri)

R : D x Q real numbers

fungsi yang akan menentukan bagi setiap dokumen dan kueri suatu nombor tertentu (real number) bagi diwakili oleh suatu

pangkatan (berkaitan) dokumen berdasarkan kueri yang dimasukkan.

Page 26: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Asas Sistem Capaian Dokumen

PemprosesPemprosesPemprosesPemprosesOutput

Dokumen

Pertanyaan

Input

feedback

-operasi sebutan-Stemming-Truncation

Sistem capaian maklumat diillustrasi seperti rajah (van Rijsbergen, 1979)

Komponen Asas CM

Page 27: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Teknik pencarian maklumat berasaskan web boleh dijalankan menggunakan beberapa teknik bergantung kepada operator yang digunakan selain penggunaan bahasa tabii.

Operator yang boleh digunakan

Boolean operator

Positional operator

Relational operator

Teknik Carian Maklumat Berasaskan Katakunci

Page 28: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Operator yang boleh digunakan (AND, OR, NOT, \ dan XOR) :Q1 AND Q2

Documents that are in BOTH sets: Q1 and Q2

Q1 OR Q2Documents that are in at least in one set: Q1 or Q2

NOT Q1All documents except the one in set Q1

Q1 \ Q2Logical “minus” all documents from Q1 except those that belong to Q2. Used also as “binary NOT” (Q1 NOT Q2)

Q1 XOR Q2Exclusive OR - documents that belong to exactly one set: Q1 or Q2, but not both. In other words (Q1 OR Q2) \ (Q1 AND Q2)

Teknik Carian Maklumat : Boolean Operator

Page 29: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Boolean Queries

AND and OR Usually expressed as INFIX operators in IR ((a AND b) OR (c AND b))

NOT is UNARY PREFIX operator ((a AND b) OR (c AND (NOT b)))

AND and OR can be n-ary operators (a AND b AND c AND d)

Some rules - (De Morgan revisited) NOT(a) AND NOT(b) = NOT(a OR b) NOT(a) OR NOT(b)= NOT(a AND b) NOT(NOT(a)) = a

Page 30: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

SAME Example: Sains SAME Maklumat

Only records containing both Sains and Maklumat within the same bibliographic field will be retrieved.

WITHExample: Sains WITH Maklumat

Only records containing both Sains and Maklumat in the same sentence in a bibliographic field will be retrieved from this search.

NEAR Example: Sains NEAR Maklumat

Only records with the terms Sains and Maklumat next to each other within the same bibliographic field would be retrieved from this search. Sains or Maklumat could display first in the field.

Teknik Carian Maklumat : Positional Operator

Positional operator digunakan untuk mendapatkan rekod dalam rekod bibliografik yang sama.

Page 31: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

ADJ Example: Sains ADJ Maklumat

Only records with the terms Sains and Maklumat adjacent to each other within the same bibliographic field and with Sains listed first in this field would be retrieved from this search

Tambahan : penggabungan operator boleh dilakukan bagi mengecil atau meluaskan jarak antara perkataan

Example: FROM ADJ1 HERE ADJ2 ETERNITYThis example shows how to search for the title, "From Here to Eternity.“

ADJ2 means that the words may be within two searchable words of each other, but they must be in the order they were entered.

Teknik Carian Maklumat : Positional Operator

Page 32: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Pengguna boleh memberikan pemberat. Sesetengah enjin carian web membenarkan pengguna menggunakan simbol (+) atau (-) untuk memberi pemberat kepada perkataan.

 Contoh : cost AND +paper

Jika ujud di dalam sesuatu dokumen yang mengandungi cost dan paper maka term paper akan dipangkat lebih tinggi (pemberat lebih besar) berbanding term cost

Teknik Carian Maklumat : Kaedah Lain

Page 33: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Belkin dan Croft (1987) membahagikan teknik capaian kepada padanan tepat dan padanan separa.

Teknik Capaian

Padanan Tepat Padanan Separa

CorakTeks Pencarian Boolean Kebarangkalian Ruang Clustering ….. Vektor

Teknik Carian dan Capaian Maklumat

Page 34: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Teknik Sistem Carian Dan Capaian

Terdapat beberapa teknik yang boleh dilakukan dalam proses carian dan capaian dalam sistem capaian dokumen bagi enjin gelintar

Teknik Capaian padanan tepat Boolean

Dokumen dinyatakan sebagai satu set dj = {ti,…..tn} dimana setiap ti adalah perkataan yang terdapat pada dokumen dj. query yang digunakan adalah dalam bentuk operasi boolean yang piawai iaitu AND, OR, NOT dan XOR.

carian seperti yang diterangkan sebelum ini

Page 35: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Boolean LanjutanCapaian Lanjutan Boolean merupakan peningkatan daripada capaian Boolean. Ianya memberi pemberat bagi perkataan. tf (term frequency) atau frekuensi perkataan menunjukkan berapa kali perkataan tersebut wujud dalam dokumen.

Ia direkabentuk untuk mengemaskini capaian boolean dimana beberapa pengoperasian dan teknik ditambah seperti keupayaan capaian dalam bentuk pemangkatan atau susunan (rank) mengikut jujukan menaik atau menurun serta nilai pemberat bagi meningkatkan lagi keupayaan capaian sesuatu query.

Teknik Sistem Carian Dan Capaian : Boolean Lanjutan

Page 36: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Contoh pemangkatan melalui frekuensi perkataan (Enjin Carian Sony)

  x AND y : tfx x tfy x OR y : tfx + tfy NOT x : 0 if tfx > 0, 1 if tfx = 0

Memberikan pemberat kepada perkataan melalui frekuensi, membenarkan dokumen yang mengandungi banyak perkataan kueri dipangkat lebih tinggi. Skor adalah 0 jika dokumen tidak menepati Syarat Boolean.

Teknik Sistem Carian Dan Capaian : Boolean Lanjutan

Page 37: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Cara capaian dokumen yang menyusun dokumen mengikut pangkatan dengan menggunakan teori kebarangkalian.

Mencapai suatu kualiti capaian yang optimum berdasarkan suatu andaian.

Ianya dijana berdasarkan pengiraan menggunakan similarity coefficient diantara kueri dan dokumen. Ia dijana dlm bentuk kebarangkalian bagi menyatakan kerelevanan diantara keduanya.

Dua asas pendekatan digunakan Bergantung kepada penggunaan patern bagi meramal kerelevanan

(Maron and Kuhns, 1960) Penggunaan setiap term pada kueri sebagai klu bagi kerelevanan

dengan suatu dokumen (Robertson and Spark Jones 1976) Asas Penggunaan teorem Bayes

Teknik Sistem Carian Dan Capaian : Capaian Berkebarangkalian

Page 38: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Kueri q (q1,q2)

Jana q dan capai n dokumen (katakan n = 5) dan di mewakili dokumen berikut

q1 q2 q1 q1

q2

q2

d1 d2 d3 d4 d5

Katakan d2 dan d4 adalah relevan

P(q1 | di adalah relevan) = ½

P(q1 | di adalah tidak relevan) = 2/3

P(q2 | di adalah relevan) = 1

P(q2 | di adalah tidak relevan) = 1/3

Teknik Sistem Carian Dan Capaian : Capaian Berkebarangkalian

Page 39: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Model capaian ruang vektor menyatakan kedua-dua pertanyaan dan dokumen sebagai set perkataan mengira persamaan antara perkataan pertanyaan dan dokumen. Model ini menganggap bahawa set ini boleh digunakan untuk mengenalpasti kedua-dua rekod dan maklumat yang ditanya. Semua perkataan pada model ini mempunyai kepentingan yang sama. teknik pemberat digunakan untuk menentukan paras atau tahap kepentingan bagi setiap perkataan. Fungsi kesamaan digunakan untuk mengira persamaan vektor antara perkataan pertanyaan dan dokumen. Dua perkara yang selalu digunakan iaitu ukuran kosine dan songsangan fungsi kekerapan dokumen.

Teknik Sistem Carian Dan Capaian : Capaian Ruang Vektor

Page 40: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Kueri dan setiap dokumen dipetakan kepada vektor dengan setiap dimensi mewakili nilai tf-idf bagi setiap perkataan. Dimana

 dokumen dokumen : dokumen dengan set term indeks dengan pemberat. Pemberat dijanakan bagi menentukan kepentingan (keberkaitan) sesuatu term kepada dokumen dj = (W1,j , W2,j, …… , Wi,j) dan

 KueriKueri : kueri adalah term indeks dengan pemberat. Pemberat dijanakan bagi menentukan kepentingan (keberkaitan) sesuatu term kepada kehendak pengguna

q = (W1,j , W2,j, …… , Wi,j)

Teknik Sistem Carian Dan Capaian : Capaian Ruang Vektor

Page 41: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Dokumen dj dan kueri q merupakan vector dalam ruang t dimensi. Kepentingan sesuatu term bergantung kepada kekerapan keujudan sesuatu term tersebut pada satu-satu dokumen. Jika term A dinyatakan lebih dari term B maka dokumen tersebut lebih menerangkan tentang A dari B. Jika freqi,j adalah kekerapan term ki dalam dokumen dj. Maka wi,j = freqi,j.

Komponen adalah 0 jika tidak wujud, nilai positif diberi (bergantung kepada frekuensi perkataan dan frekuensi dokumen songsang) jika ianya wujud. Dokumen dipangkat melalui jarak dengan kueri, dengan itu dokumen akan dipangkat paling tinggi sekiranya sudut antaranya dan kueri adalah paling kecil. Jarak ditentukan berdasarkan pengiraan skor kesamaan (similarity score calculation). Jarak boleh merupakan magnitud perbezaan vektor yang dinormalkan atau mungkin kosin (cosine) bagi sudut antara vektor-vektor.

Teknik Sistem Carian Dan Capaian : Capaian Ruang Vektor

Page 42: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Perwakilan Grafik

Example:

D1 = 2T1 + 3T2 + 5T3

D2 = 3T1 + 7T2 + T3

Q = 0T1 + 0T2 + 2T3

T3

T1

T2

D1 = 2T1+ 3T2 + 5T3

D2 = 3T1 + 7T2 + T3

Q = 0T1 + 0T2 + 2T3

7

32

5

• Adakah D1 atau D2 lebih sama dgn Q?

• Bagaimana untuk mengukur darjah kesamaan? Jarak ? Sudut?

Page 43: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Contoh

Q : gold silver truck

D1: Shipment of gold damaged in a fire

D2: Delivery of silver arrived in a silver truck

D3: Shipment of gold arrived in a truck

Variable gold silver truck

N 3 3 3

n 2 1 2

R 2 2 2

r 1 1 2

Page 44: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Contoh

Q : gold silver truck

D1: Shipment of gold damaged in a fire

D2: Delivery of silver arrived in a silver truck

D3: Shipment of gold arrived in a truck

Variable gold silver truck

N 3 3 3

n 2 1 2

R 2 2 2

r 1 1 2

bilangan dokumen dalam koleksi

Page 45: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Contoh

Q : gold silver truck

D1: Shipment of gold damaged in a fire

D2: Delivery of silver arrived in a silver truck

D3: Shipment of gold arrived in a truck

Variable gold silver truck

N 3 3 3

n 2 1 2

R 2 2 2

r 1 1 2

bilangan dokumen yang mengandungi

term t

Page 46: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Contoh

Q : gold silver truck

D1: Shipment of gold damaged in a fire

D2: Delivery of silver arrived in a silver truck

D3: Shipment of gold arrived in a truck

Variable gold silver truck

N 3 3 3

n 2 1 2

R 2 2 2

r 1 1 2

bilangan term yang relevan

bagi kueri yang diberikan

Page 47: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Contoh

Q : gold silver truck

D1: Shipment of gold damaged in a fire

D2: Delivery of silver arrived in a silver truck

D3: Shipment of gold arrived in a truck

Variable gold silver truck

N 3 3 3

n 2 1 2

R 2 2 2

r 1 1 2

bilangan dokumen

relevan yang mengandungi

term t

Page 48: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Variable gold silver truck

N 3 3 3

n 2 1 2

R 2 2 2

r 1 1 2

N : bilangan dokumen dalam koleksi

n : bilangan indeks dokumen yang mengandungi term t

R : bilangan term yang relevan bagi kueri yang diberikan

r : bilangan indeks dokumen relevan yang mengandungi term t

Contoh

Penyelesaian seterusnya akan dibincang pada pendetailan ruang vektor menggunakan …..

Page 49: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Robertson-Sparck Jones Weights

2115.0

log)1(

NnR

r

w

15.0

15.0

log)2(

RNrn

Rr

w

5.05.05.0

5.0

log)4(

rRnNrnrR

r

w

Predictive formulation

11

5.05.0

log)3(

nNnrR

r

w

Page 50: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Tesaurus adalah set item (frasa atau perkataan ) dan set hubungan di antara item-item tersebut. 3 perkara asas yang berkaitan dengan tesaurus di dalam capaian maklumat ialah:

1. pembinaan: ada 2 jenis tesaurus iaitu secara manual dan secara automatik.

2. capaian: diberi satu pertanyaan yang khusus, maka tesaurus akan mencapai dan menggunakan perkataan tersebut untuk meningkat dan mengembangkan pertanyaan.

3. penilaian: selepas tesaurus dibina, adalah penting menilai kebaikan yang mampu dilakukannya. Tesaurus manual dinilai melalui perkembangan pertanyaan yang dicapai untuk memastikan peningkatan keupayaan capaian.

TESAURUS 

Page 51: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

Tesaurus menyediakan maklumat sinonim dan semantik berkaitan perkataan dan frasa.

Example: physician syn: ||croaker, doc, doctor, MD, medical,

mediciner, medico, ||sawbones rel: medic, general practitioner, surgeon,

Bagi setiap term, t, pada kueri, ia akan memperkembangkan kueri dengan sinonim dan perkataan yang berkaitan dengan t dari tesaurus.

Pemberat yang digunakan adalah kurang dari term kueri yang asal

TESAURUS

Page 52: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

WordNet

A more detailed database of semantic relationships between English words.

Developed by famous cognitive psychologist George Miller and a team at Princeton University.

About 144,000 English words. Nouns, adjectives, verbs, and adverbs grouped into about

109,000 synonym sets called synsets.

Penggunaan WordNet dalam perkembangan kueri

Add synonyms in the same synset. Add hyponyms to add specialized terms. Add hypernyms to generalize a query. Add other related terms to expand query.

Page 53: Pengenalan Menyeluruh. Pengenalan 2003  16.5 bil Laman web 3 bil laman / 59GB teks dimuat setiap hari Hayat  44 hari 10MB/s teks : connection capable

WordNet Synset Relationships

Antonym: front back Attribute: benevolence good (noun to adjective) Pertainym: alphabetical alphabet (adjective to noun) Similar: unquestioning absolute Cause: kill die Entailment: breathe inhale Holonym: chapter text (part-of) Meronym: computer cpu (whole-of) Hyponym: tree plant (specialization) Hypernym: fruit apple (generalization)