jarak kemiripan

1 | P a g e

ANALISA PROSES PENGUKURAN KEDEKATAN WARNA, PENCARIAN DATA PADA APLIKASI MESIN PENCARI GOOGLE DAN

PENGUKURAN JARAK KATA

Tugas Kecerdasan Bisnis Institut Teknologi Sepuluh Nopember

Program Pasca Sarjana Jurusan Teknik Elektro Telematika CIO 2014

Nama : Salman Akbar | NRP : 2214206711

Abstrak

Dokumen Ini Merupakan Tugas Mata Kuliah Kecerdasan Bisnis Yang Merupakan Ringkasan

Penjelesanan Sederhana Tentang Proses Pemetaan Warna, Hasil Pencarian Data Pada Aplikasi

Mesin Pencari Google Serta Pengukuran Jarak Kata.

Pendahuluan

Pengolahan citra pada masa sekarang mempunyai suatu aplikasi yang sangat luas dalam berbagai bidang kehidupan antara lain bidang arkeologi, astronomi, biomedis, bidang

industri dan penginderaan jauh yang menggunakan teknologi citra satelit. Segmentasi ini akan mengubah suatu citra masukan yang kompleks menjadi citra yang lebih sederhana, berdasarkan peninjauan terhadap komponen citra. Dengan demikian akan memudahkan

pengamat citra untuk melakukan analisis.

Google merupakan salah satu mesin pencari terpopuler di dunia. Oleh karena itu, makalah ini berisi tentang analisis cara kerja faktor yang mempengaruhi keberagaman

analisis semantik pada hasil pencarian mesin pencari Google. Knowledge graph merupakan knowledge base yang digunakan Google untuk meningkatkan hasil pencarian dengan

semantic search dari informasi yang dikumpulkan dari berbagai sumber. Tujuannya adalah agar pengguna dapat menggunakan informasi ini untuk menyelesaikan permintaan mereka

Sumber informasi semakin bertambah secara dramatis pada dekade terakhir ini dikarenakan teknologi Internet. Besarnya jumlah sumber informasi juga melahirkan keragaman dari

sumber informasi tersebut. Keragaman timbul karena perbedaan domain keilmuan, negara, bahasa, dan sebagainya. Sehingga masalah untuk interoperabilitas informasi menghadapi

tantangan baru khususnya dari keragaman konsep. Memasuki era globalisasi dan teknologi informasi, bahasa Indonesia tidak saja dilihat sebagai aset kebudayaan melainkan

merupakan sarana perhubungan dan aset di bidang ekonomi, politik, dan strategi hubungan global, misalnya semakin dipelajarinya bahasa Indonesia di Jepang, Australia, Amerika, dan

lain lain. Dengan demikian bahasa Indonesia telah dipelajari dan diajarkan, khususnya untuk kepentingan politik, ekonomi dan pengembangan hubungan global Banyak pihak yang berpikir secara terkotak bahasa adalah bagian dari ilmu sosial dan

komputer adalah bagian dari ilmu eksak, ternyata paradigma seperti ini tidaklah tepat lagi. Karena untuk interoperabilitas pada era Internet dengan keragaman semantik, peran bahasa

sangatlah penting untuk meningkatka kualitas dalam pencarian informasi.

2 | P a g e

1 Pengukuran kedekatan Warna Menggunakan Parameter Ukur Similaritas dan Disimilaritas Histogram

1.1 Pengukuran Similaritas

Pengukuran Similaritas adalah mengukur tingkat kesaman antara dua warna. Semakin kecil nilai similaritas (mendekati nol), maka kedua warna tersebut semakin berbeda, sebaliknya, semakin besar nilai similaritas, maka semakin mirip kedua warna tersebut. Salah satu contoh persamaan similaritas adalah histogram intersection

Di mana C1(k,m,n) dan C2(k,m,n) merupakan dua bin warna pada posisi yang sama dari histogram citra C1 dan histogram citra C2, K adalah jumlah pembagian luminance, M adalah jumlah pembagian chrominance dan N adalah jumlah pembagian Hue (warna). Hasil perhitungan Histogram intersection berkisar 0 D(C1,C2) 1. Dua citra C1 dan C2 dikatakan mirip, apabila D(C1,C2) mendekati 1, sebaliknya dikatakan tidak mirip, bila D(C1,C2) mendekati 0.

1.2 Pengukuran Disimilaritas

Disimilaritas adalah pengukuran tingkat perbedaan (jarak) antara dua warna berdasarkan pada histogram. Semakin besar nilai disimilaritas, maka semakin besar perbedaan kedua warna tersebut, sebaliknya, semakin kecil (mendekati nol), maka semakin mirip kedua warna tersebut.

bila q = 1 rumus tersebut biasa disebut L1 atau city block distance, sedang bila q = 2 disebut Euclidian distance L2. Hasil perhitungan City Block dan Euclidian Distance berkisar 0 L(C1,C2) 1. Dua citra C1 dan C2 dikatakan mirip apabila L(C1,C2) mendekati 0, sebaliknya dikatakan tidak mirip bila L(C1,C2) mendekati 1.

1.3 Pembentukan Histogram dan Bin Warna

Untuk mempermudah pemahaman tentang pembentukan histogram, maka diberikan sejumlah citra sintetik yang dibuat dengan hanya 3 dan 4 komposisi warna yang berbeda dan dengan ukuran 100x100 pixel. Berikut contoh 10 citra sintetik di mana masing-masing diberi nama C1, C2, C3, C4, C5, C6, C7,C8, C9, dan C10.

Gambar 1. Contoh sepuluh citra dengan komposisi 3 dan 4

warna yang berbeda

3 | P a g e

Citra sintetik adalah citra yang dibuat dengan bantuan komputer untuk keperluan tertentu. Dengan menghitung jumlah pixel dalam setiap citra yang memiliki warna yang sama, maka diperoleh histogram dari setiap citra di atas sebagai mana ditunjukan pada gambar 4. Sumbu Y menyatakan persentasi setiap warna yang dikandung setiap citra pada sumbu X. Sebagai ilustrasi, citra C1 memiliki kandungan warna merah, kuning, hijau dan biru yang masing-masing sebesar 30%, 55%, 10% dan 5%. Untuk citra C2 memiliki kandungan warna merah, kuning dan hijau (tanpa warna biru atau biru=0%) yang masing-masing sebesar 35%, 50%, 15%, demikian seterusnya untuk citra lainnya. Tabel 1. memperlihatkan nilai persentasi warna yang dikandung oleh setiap citra.

1.4 Histogram Intersection

Berdasarkan rumus Histogram Intersection, dinyatakan bahwa citra yang paling mirip hingga yang paling tidak mirip dengan Citra 1, sesuai dengan rankingnya adalah:

1.5 Kesimpulan

Berdasarkan analisis terhadap hasil uji-coba yang sudah dilakukan, maka dapat disimpulkan bahwa alat ukur disimilaritas yang diusulkan memiliki tingkat efektivitas yang lebih baik dibandingkan dengan City-block, Euclidean dan Histogram Intersection. Dengan demikian alat ukur ini dapat menjadi alternatif untuk digunakan dalam sistem temu kenali citra. Pengkodean karakteristik warna setiap citra dalam bentuk bin warna cukup efektif untuk mempercepat proses pencarian citra atau temu kenali citra. Demikian pula, bentuk bin warna ini dapat meminimalkan jumlah memori penyimpanan

Gambar 3. Urutan sembilan citra dari hasil

Histogram Intersection

Tabel 1. Histogram persentasi setiap warna dari

sepuluh citra

4 | P a g e

karakteristik citra dalam database. Ruang warna HCL dan L*a*b* sangat baik digunakan untuk mengkodekan karakteristik warna citra yang akan digunakan untuk temu kenali citra. Namun perlu pula dipilih alat ukur warna yang sesuai agar hasilnya lebih optimal.

2 Hasil Pencarian Dan Semantik Pada Aplikasi Mesin Pencari Google

2.1 Mesin Pencari Mesin pencari adalah istilah yang digunakan untuk website tempat orang mencari (mesin pencari) seperti Google.com. [1] Di Mesin Pencari seperti Google, ada ribuan bahkan orang mencari informasi dengan mengetikkan kata atau beberapa kata yang ingin mereka temukan informasi lebih detailnya

Cara kerja mesin pencari yaitu menyimpan informasi tentang banyak halaman web, yang diambil langsung dari WWW. Halaman-halaman ini diambil dengan web crawle(Frieur, 2013), peramban web otomatis mengikuti setiap pranala atau link yang dilihatnya. Isi setiap halaman lalu dianalisis untuk menentukan cara indeks-nya (misalnya, kata-kata diambil dari judul, subjudul, atau field khusus yang disebut meta tag). Data tentang halaman web disimpan dalam sebuah database indeks untuk digunakan dalam pencarian selanjutnya. Sebagian mesin pencari, seperti Google, menyimpan seluruh atau sebagian halaman sumber (yang disebut cache) maupun informasi tentang halaman web itu sendiri. Selain halaman web, mesin pencari juga menyimpan dan memberikan informasi hasil pencarian berupa pranala yang merujuk pada file, seperti file audio, file video, gambar, foto dan sebagainya, serta informasi tentang seseorang, suatu produk, layanan, dan informasi beragam lainnya yang semakin terus berkembang sesuai dengan perkembangan teknologi informasi.

2.2 Semantic Search

Semantic search merupakan teknik pencarian data dalam search query yang bertujuan tidak hanya untuk mencari kata kunci, tetapi juga untuk menentukan makna kontekstual dari kata kunci yang digunakan dalam pencarian (Graham, 2005).

Semantic search memberikan hasil yang lebih bermakna dengan mengevaluasi dan memahami frase pencarian dan menemukan hasil yang paling relevan dalam situs web, database, atau tempat penyimpanan data lainnya. Semantic search bekerja pada prinsip-prinsip bahasa semantik. Tidak seperti algoritma typical search, Semantic search didasarkan pada konteks, substansi, maksud dan konsep frase yang dicari. Semantic search juga mencakup lokasi, sinonim dari istilah, tren saat ini, variasi kata dan unsurunsur bahasa alami lainnya sebagai bagian dari pencarian. Konsep Semantic search berasal dari berbagai algoritma pencarian dan metodologi, termasuk kata keyword-toconcept mapping, graph patterns dan logika fuzzy. Mesin pencari web besar seperti Google dan Bing menggabungkan beberapa unsur dari pencarian semantik. Jika Google menggunakan algoritma pemeringkatan seperti PageRank untuk memprediksi relevansi, semantic search menggunakan semantik, atau ilmu yang mempelajari arti/makna bahasa, untuk memperoleh hasil pencarian yang sangat relevan. Namun Google juga telah mengumumkan proyek semantic search nya sendiri

2.3 Google Distance

Google Distance merupakan ukuran kemiripan semantik yang dihasilkan dari jumlah hits yang dilakukan mesin pencari Google untuk sekumpulan kata kunci. Kata

5 | P a g e

kunci dengan arti yang sama atau serupa dalam natural language, kemiripan semantik-nya cenderung lebih tinggi dari pada kata-kata yang memiliki arti yang berbeda (Lukas, 2009). Secara spesifik, Normalisasi Google Distance (NGL) antara dua istilah x dan y adalah:

M merupakan jumlah halaman web yang dicari oleh Google; f(x) dan f(y) merupakan jumlah hits untuk masingmasing istilah pencarian x dan y, dan f(x,y) merupakan jumlah halaman web yang mengandung istilah x dan y. Jika dua istilah pencarian x dan y tidak terdapat pada halaman web yang sama, tetapi terjadi secara terpisah, normalisasi Google distance antara mereka adalah tak terbatas. Jika kedua istilah terdapat pada web yang sama, NGD mereka adalah nol, atau setara dengan koefisien antara x kuadrat dan y kuadrat

2.4 Semantic Search dan Spelling Correction pada Mesin pencari Google

Sistem pendukung Google untuk semantic search dinamakan Knowledge graph yang mampu menghilangkan kebutuhan untuk re-query dan memberikan disambiguasi. Google menggunakan dua faktor dasar untuk menilai seberapa penting dan relevansinya setiap halaman web sebelum memberikan peringkat kepada halaman web tersebut. Faktor-faktor tersebut adalah:

1. Peringkat halaman (untuk mengukur popularitas dengan menganalisis backlink). 2. Relevansi (dengan menganalisis penggunaan kata kunci atau search query

yang digunakan dalam halaman web tersebut).

Bentuk perankingan berdasarkan 2 hal diatas tidak membantu dalam menemukan halaman-halaman web yang relevan dengan maksud yang diinginkan oleh para pencari, karena secara tidak langsung faktor popularitas dapat mengurangi peringkat semantik relevansi dari halaman web tersebut. Ini adalah alasan bahwa Google menggunakan semantik untuk mengidentifikasi dan memprioritaskan peringkat halaman web yang memiliki konten yang relevan secara semantik daripada hanya menghitung kata kunci dalam kata kunci dan backlink untuk menganalisis halaman-halaman web. Dalam fitur Autocomplete suggestion terdapat spelling correction yang berfungsi untuk memperbaiki ejaan yang salah yang diketikan pada kolom pencarian. Ada beberapa jenis kesalahan ejaan yang dapat diperbaiki secara otomatis dengan spelling correction, antara lain: 1. Transposition: merupakan kesalahan ejaan dimana adanya kesalahan posisi

dari huruf dalam sebuah kata kunci. 2. Wrong Letter: merupakan kesalahan ejaan dimana adanya kesalahan huruf

dalam sebuah kata kunci. 3. Extra Letter: merupakan kesalahan ejaan karena adanya kelebihan jumlah

huruf dalam sebuah kata kunci.

6 | P a g e

4. Missing Letter: merupakan kesalahan ejaan dimana adanya kekurangan jumlah huruf dalam sebuah kata kunci

2.5 Query Processing Dalam Semantic Environment

Search query yang diterima oleh Google diurai (menggunakan parser) untuk mengidentifikasi satu atau lebih kata kunci. Dalam proses ini, sinonim atau istilah pengganti lainnya akan diidentifikasi. Sinonim ini dikenal sebagai calon sinonim dan calon sinonim tersebut akan dipecah dan diproses sebagai sinonim yang berkualitas (Qualified Synonim). Kemudian, relationship engine digunakan untuk mengidentifikasi hubungan antara anggota berdasarkan domain masing-masing. Yang dimaksud dengan domain disini adalah pemusatan kategori dari kalimat yangserupa. Kata kunci dari Search Query akan diidentifikasi oleh domain yang merupakan kategori semantik yang memiliki koleksi pra-entitas yang telah ditetapkan. Hal ini membantu Google untuk menghubungkan istilah untuk pencocokan identitas yang terdekat (Salah satu point penting yang perlu dicatat di sini adalah bahwa Google hanya akan menemukan kata-kata yang berhubungan dalam search query dengan yang sudah ada dalam database-nya yang merupakan Knowledge graph, oleh karena itu, beberapa Search Query meskipun sudah sesuai semantik mungkin tidak muncul).

Gambar 4. Pemprosessan Query pada Google

7 | P a g e

Sebuah pencarian yang terpisah akan dilakukan oleh mesin query menggunakan Domain Matching Relationship dan hasil akhir akan ditampilkan setelah semantik Search Query diidentifikasi (mesin query dapat mempluralkan atau mengulang katakata pada Search Query jika diperlukan). Oleh karena itu, dapat disimpulkan bahwa, sebuah Search Query yang kompleks yang diinput oleh pengguna dipecah-pecah, kemudian disederhanakan dengan melibatkan suatu proses yaitu dengan fitur Google Distance untuk mengukur kemiripan semantik dari kata kunci yang dicari, Setelah itu, halaman web yang relevan diidentifikasi dan ditampilkan sebagai hasil akhir.

2.6 Kesimpulan

Sistem pencarian semantik pada Google berdasarkan pada dua hal yaitu: Peringkat halamn dan Relevansi, dimana menurut kami dua hal ini sangat bertentangan satu sama lain dan tidak saling mendukung dimana jika Peringkat halaman suatu halaman web tinggi maka akan semakin tinggi kemungkinan Google akan menampilkan hasil pencarian dengan urutan peringkat halaman dari mulai yang tertinggi hingga yang terendah tanpa memperhatikan relevansi isi dari halaman web yang bersangkutan. Atau dapat dijelaskan dengan sederhana semakin tinggi peringkat halaman maka nilai relevansi akan semakin diabaikan. Sedangkan untuk proses bagaimana Google menerjemahkan Search Query atau kata kunci yang pengguna input dapat kami simpulkan Google menggunakan beberapa piranti seperti parser, relationship engine, knowledge graph dan Domain Matching Relationship. Proses pencarian pada Google sudah cukup baik, malah terbilang sangat baik untuk jajaran mesin pencari yang ada di jagat internet ini. Namun hal itu belum menjamin bahwa Google akan menampilkan informasi atau halaman web yang diinginkan oleh pengguna. Untuk memperbaiki ini disarankan untuk lebih menekankan relevansi informasi pada sebuah halaman web daripada popularitasnya (Page Rank), dan mungkin Google dapat menjadikan pola kalimat di setiap lokasi pengguna sebagai landasan pencarian dan menyarankan halaman web asing dengan cara menterjemahkan masukkan yang telah diberikan oleh pengguna, sehingga kemungkinan pengguna mendapatkan informasi yang sesuai dengan keinginannya akan lebih besar tercapai. Pada pertanyaan mengapa Google memasukkan "Phil Collins" dalam hasil pencarian "phil colin". Secara sederhana dapat dijelaskan bahwa dalam hasil pencarian google pada kata kunci "phil colin" Search query yang diterima oleh Google diurai (menggunakan parser) untuk mengidentifikasi satu atau lebih kata kunci. Dalam proses ini, sinonim atau istilah pengganti lainnya akan diidentifikasi. Sinonim ini dikenal sebagai calon sinonim dan calon sinonim tersebut akan dipecah dan diproses sebagai sinonim yang berkualitas (Qualified Synonim). Kemudian, relationship engine digunakan untuk mengidentifikasi hubungan antara anggota berdasarkan domain masing-masing dan ranking popularitas dan pada akhirnya data hasil proses pencarian tersebut dilampirkan pada hasil pencarian google.

8 | P a g e

3 Pengukuran Jarak Kata Menggunakan Wordnet

3.1 Wordnet Pendekatan yang dilakukan untuk mengatasi permasalahan perbedaan semantik salah satunya adalah dengan memanfaatakan WordNet yang merupakan sebuah leksikal database elektronik. WordNet dikembangkan untuk bahasa Inggris oleh Universitas Princeton di Amerika. WordNet adalah sistem referensi leksikal online yang rancangannya terinspirasi oleh teori psikolinguistik dari memori leksikal manusia. Kata benda, kata kerja, kata sifat an kata keterangan dalam bahasa Inggris diorganisir menjadi himpunan sinonim, dimana masing masing merepresentasikan satu konsep leksikal. Relasi yang berbeda enghubungkan himpunan sinonim. Pada WordNet beberapa informasi dapat dicari seperti persamaan kata, lawan kata, arti kata (glossary), singkatan bahkan juga sampai kepada beberapa hal yang penting untuk sistem informasi seperti: taksonomi, 'matahari' adalah bagian (subClass) dari 'tata surya' agregasi, 'genteng' adalah bagian (part of) dari 'rumah' kemiripan, [anjing,kuncing] > [anjing, pohon]

3.2 Menghitung Similaritas Sampai saat ini kita sudah menggunakan istilah keterhubungan semantik secara bebas, dan kadangkadang disebut juga persamaan semantik. Sebelum kita mendiskusikan berbagai ukuran yang sudah kita pelajari secara detil, kita perlu memperjelas perbedaan antar dua terminologi ini . Dua konsep dapat terkait tanpa menjadi serupa, maka keterkaitan harus dilihat sebagai dugaan yang lebih umum dibanding persamaan. Sebagai contoh, dua konsep mungkin terkait sebab mereka adalah lawan kata, tetapi mereka nampaknya tidak akan dipertimbangkan sebagai serupa. Kita menggunakan istilah persamaan di dalam suatu pengertian yang sangat spesifik, yang mengacu pada suatu hubungan antar konsep yang didasarkan pada informasi ketika ditemukan dalam suatu hirarki isa. Di dalam kasus WordNet, pertimbangan keterbatasan persamaan ini untuk antar pasangan kata benda atau pasangan kata kerja, karena hirarki konsep di dalam WordNet tidak mencampur jenis kata. Sebagai perihal praktis, hanya hirarki kata benda yang cukup luas untuk memungkinkan perbedaan fine grained antar konsep terkait.

3.3 Peran WordNet Dari kemampuan database pada WordNet, banyak pengembangan lebih lanjut dilakukan untuk mengukur kesamaan semantik sebuah konsep. Beberapa pendekatan untuk analisis kata pada bidang komputer telah diketengahkan seperti pada [3,4,5,6]. Pendekatan yang dilakukan adalah dengan menghitung perpotongan antara konsep 1 dan konsep 2 terhadap arti kata, taksonomi dan vektor. Pada pendekatan yang kami gunakan adalah dengan menambahkan peran ontologi pada domain terkait. Sebagai ilustrasi, misalkan kita mengirimkan sebuah permintaan informasi ke beberapa institusi (asumsikan semua institusi memiliki sumber informasi elektronik yang dapat diakses oleh publik) di Depok untuk mencari berapa jumlah tenaga kerja (employee). Misalkan permintaan informasi dikirimkan ke berbagai institusi seperti perusahaan swasta, kantor pemerintah, lembaga pendidikan. Untuk kantor pemerintah tenaga kerja diistilahkan dengan pegawai (employee), beberapa pabrik menggunakan istilah buruh (labor),

9 | P a g e

sementara perusahaan swasta diistilahkan pekerja (worker), dan di universitas memakai kata dosen (lecture). Kalau kita hanya mengacu kepada query berapa jumlah tenaga kerja di Depok / how many employee at Depok. Maka informasi yang bisa dijawab berdasarkan pendekatan keyword adalah hanya untuk kantor pemerintahan, sedangkan dari institusi lainnya akan memberikan informasi dengan nilai nol. Walaupun kita tahu bahwa antara employee, labor, worker, lecture adalah hal yang sama. Dengan melakukan perhitungan kesamaan semantik kita bisa mengatasi permasalahan ini. Dimana kita selain menghitung nilai kesamaan semantik, kita juga menentukan nilai batas minumum untuk kesamaan semantik yang kita cari. Dari contoh ini jelas dengan pendekatan pesamaan semantik kita bisa mendapatkan informasi yang lebih baik.

3.4 Beberapa Model Perhitungan Ada berbagai macam metode pengukuran keterkaitan/keterhubungan dan persamaan (Measuresof relatedness and Similarity), yakni :

Path Based Measures (Rada, Leacock and Chodorow/LCH, Wu and Palmer/WUP, Hirst and St.Onge)

Information Content Measures (Resnik, Jiang and Conrath, Lin) Gloss Based Measures Gloss Vectors

Paper ini mengacu pada pengukuran Path Based Measures khususnya Leacock dan Chodorow (LCH)

3.4.1 Ukuran Path Based

Ketika diberi suatu hirarki isa, satu makna menentukan tingkatan bagi dua konsep yang terkait adalah untuk menghitung banyaknya edge/tepi antar mereka, atau untuk menemukan panjang alur paling pendek antar dua konsep. Pada prinsipnya alur berdasarkan ukuran (path based measures) dapat berlaku bagi taksonomi manapun. Sehingga, di dalam evaluasi yang bersifat percobaan yang kita coba untuk mempekerjakan ukuran panjang lintasan (dan ukuran isi informasi/information content measures, yang akan diuraikan kemudian) baik dengan kata benda dan kata kerja. Dalam banyak kasus ini tidak berhasil dengan kata kerja, yang mana diharapkan karena hirarki katakerja di dalam WordNet berlimpahan dan dangkal. Sebagai hasilnya sangat sedikit konsep kata kerja yang benarbenar menduduki hirarki yang sama dan di sana akan jarang terjadi alur antar konsep kata kerja. Bagaimanapun, adalah penting untuk mencatat bahwa penggambaran ini lebih pada suatu batasan dalam WordNet dibanding sesuatu yang tidak bisa dipisahkan di dalam ukuran ini. Sayangnya, panjang lintasan adalah paling sesuai ketika mereka mempunyai suatu penafsiran yang konsisten sepanjang taksonomi atau jaringan. Ini adalah bukan kasus dengan WordNet, karena konsep yang lebih tinggi dalam suatu hirarki lebih umum dibanding yang berada di bawahnya. Sehingga, suatu panjang jalur antara dua konsep umum dapat memberi kesan perbedaan yang besar sedangkan antara dua konsep spesifik mungkin tidak. Sebagai contoh, tikus dan binatang

10 | P a g e

pengerat dipisahkan oleh suatu panjang jalur satu, yang mana jarak yang sama yang memisahkan fire iron / setrika api dan implement. Fakta bahwa panjang lintasan dapat ditafsirkan dengan cara yang berbeda tergantung pada di mana mereka terjadi dalam WordNet telah mendorong pengembangan sejumlah ukuran berdasar pada panjang lintasan yang menyertakan berbagai faktor koreksi.

3.4.2 Ukuran Path Based

Model Leacock Dan Chodorow dihubungkan dengan pendekatan Rada, Et.Al., akan didasarkan pada panjang alur yang paling pendek antara konsep kata benda dalam suatu hirarki isa. Alur yang paling pendek adalah yang meliputi jumlah konsep intermediate/antara yang paling sedikit. Nilai ini diskala oleh kedalaman hirarki D, di mana kedalaman digambarkan sebagai panjang alur yang terpanjang dari suatu node daun/leaf ke node akar hirarki. Sehingga, ukuran persamaan mereka digambarkan sebagai berikut:

dimana : c1 = konsep1 c2 = konsep2 length(c1,c2) = panjang lintasan yang paling pendek (yaitu., jumlah minimum edge antara dua konsep) D = Maksimum depth dari taksonomi (Jumlah terbesar kedalaman node antara dua konsep) Pngukuran dengan LeacockChodorow mengasumsikan adanya sebuah top node yang mewakili semua node, dan akan selalu memberikan nilai lebih besar dari nol, sepanjang dua konsep yang akan dibandingkan terdapat di WordNet.

3.5 Contoh Penerapan

Berikut ini diilustrasikan contoh penghitungan keterkaitan/keterhubungan antar kata mobil(car), sepeda(bicycle), garpu(fork) dengan menggunakan metode LCH seperti yang dirumuskan pada persamaan (1). Langkah langkah yang dilakukan adalah sebagai berikut: 1. Mencari panjang lintasan dari c1 dan c2 dimana c1 adalah mobil(car) dan c2 adalah

sepeda(bicycle). 2. Masukkan c1 dan c2 ke dalam WordNet, dengan hasil seperti pada gambar 1 dan 2 3. Hitung panjang lintasan mulai dari entity c1 ke c2. Dari gambar 1 dan 2 untuk contoh

11 | P a g e

Mobil(car)-sepeda(bicycle) didapatkan length sebesar 5 ( dengan jalur : mobil(car) - Motor Vehicle, Automotive Vehicle - Self Propelled Vehicle - Wheeled Vehicle Bicycle(Sepeda))

4. Sedangkan untuk mencari nilai D dapat diperoleh dengan membandingkan jumlah depth dari c1 dan c2, sebagai contoh untuk mobil(car) akan memiliki depth sebesar 12 (dengan jalur : mobil(car) - Motor Vehicle, Automotive Vehicle - Self Propelled Vehicle - Wheeled Vehicle Vehicle - Conveyance, Transport - Instrumentally, Instrumentation - Artifact, Artefact - Whole, Unit - Object, Physical Object - Physical Entity Entity), sedangkan untuk kata sepeda(bicycle) sebesar 10 (dengan jalur : Sepeda(bicycle) - Wheeled Vehicle Vehicle - Conveyance, Transport - Instrumentally, Instrumentation - Artifact, Artefact - Whole, Unit - Object, Physical Object - Physical Entity Entity ),sehingga yang digunakan untuk D adalah nilai 12.

5. Perhitungannya akan menjadi seperti berikut ini:

= log( (2 )

((1, 2)))

= log( (2 12)

((12,5)))

= 0,68

Ulangi Perhitungan Mobil(Car)-Garpu(Fork) dan Sepeda(Bicycle)-Garpu(Fork). Sehingga didapatkan untuk Mobil(Car)-Garpu(Fork) adalah 0,301 (length=12, D=12) dan untuk Sepeda(Bicycle)-Garpu(Fork) = 0,346 (length=10,D=10). Dengan hasil tersebut dapat dinyatakan bahwa Jarak antara Sepeda Lebih Dekat dengan garpu dibanding jarak sepeda dengan mobil. Hasil pencarian kata di WordNet dapat di lihat pada gambar 5, 6 dan 7, serta ditampilkan dalam grafik pohon di gambar 8.

Gambar 5. Output WordNet Ver 3 Offline untuk kata Mobil(Car)

12 | P a g e

Gambar 6. Output WordNet Ver 3 Offline untuk kata Sepeda(Bicycle)

Gambar 8. Tampilan grafik pohon dari gambar 5-7

Gambar 7. Output WordNet Ver 3 Offline untuk kata Garpu (Fork)

13 | P a g e

3.6 Kesimpulan

WordNet dapat digunakan sebagai salah satu acuan untuk sistem interoperabilitas dalam

mengukur kesamaan semantik sebuah konsep. Hasil pengukuran kesamaan semantik tersebut

dapat kita gunakan untuk mengatasi keragaman semantik sehingga pertukaran informasi

dapat terjadi lebih baik. Semakin besar nilai hasil perhitungan menunjukan semakin besar

tingkat kesamaan semantik sebuah konsep dan sebaliknya semakin kecil nilai hasil

pengukuran menunjukan semakin kecil tingkat kesamaan semantik sebuah konsep. Sehingga

dengan cara menaikan atau

menurunkan nilai batas sebuah pencarian, kita dapat memperoleh informasi yang paling ses

uai. Tugas ini berbasiskan pada WordNet bahasa Inggris, sehingga segala sesuatunya

mengacu pada aturan dan ketentuan yang berlaku pada tata bahasa Inggris. Seperti kita

ketahui aturan dan keketentuan bahasa satu dengan bahasa lainnya berbeda sehingga dalam

mencari makna atau kesamaan sebuah konsep harus mengacu sebaiknya mengacu pada

bahasa yang bersangkutan.

Oleh karena itu perlu dikembangkan sebuah leksikal database elektronik yang mengacu

pada bahasa Indonesia untuk memecahkan masalah keragaman semantik yang ada pada

bahasa Indonesia yang banyak menyerap kata asing dan daerah yang cukup beragam di tanah

air tercinta ini.

Referensi

[1] http://www. give-lab.cs.uu.nl/cbirsurvey/ [2] http://repository.gunadarma.ac.id/1311/ [3] http://support.Google.com/websearch/answer/106230 [4] http://www.searchenginepeople.com/blog/detailed-analysis-of-semanticsearch-and-its-role-in-

hummingbirdalgorithm.html

[5] http://www.ialf.edu/kipbipa/papers/ArisBudiWurianto.doc [6] http://WordNet.princeton.edu [7] http://www.d.umn.edu/~tpederse/Group04/jmslidessep9.pdf [8] http://tcc.itc.it/people/bentivogli/corpora/WNtextanalysis.html [9] http://lhncbc.nlm.nih.gov/lch/docs/published/2001/pub2001027.pdf [10] http://www.cnts.ua.ac.be/conll2004/pdf/08188tsa.pdf [11] http://www.w3.org/2001/sw/ [12] http://id.wikipedia.org/wiki/Semantik.

jarak kemiripan

Documents