korpus bahasa yeen kak ikin

16
KORPUS BAHASA : Pangkalan Data, Pengumpulan dan Pengelasan kata, Kata dan Pengkomputera n Ahli kumpulan : Cletus Majin Saiful Abdul Rahman Nadzema Binti Bolhassan Jaquein Eva Pemanul Lysly Alyngey Subin

Upload: mohammad-yaqin

Post on 17-Jun-2015

1.454 views

Category:

Documents


0 download

TRANSCRIPT

Page 1: Korpus bahasa yeen kak ikin

KORPUS BAHASA :

Pangkalan Data, Pengumpulan

dan Pengelasan kata, Kata

dan Pengkomputeran

Ahli kumpulan :

Cletus Majin

Saiful Abdul Rahman

Nadzema Binti Bolhassan

Jaquein Eva Pemanul

Lysly Alyngey Subin

Page 2: Korpus bahasa yeen kak ikin

KORPUS BAHASA

Kamus Dewan Edisi Ketiga 1994 - korpus boleh ditakrifkan

sebagai “himpunan makalah” (tulisan dsb) mengenai

sesuatu

perkara tertentu atau kumpulan bahan untuk kajian.

Linguistik Moden - korpus ialah himpunan data-data mentah

yang bakal digunakan untuk kajian lingustik. Contohnya

adalah

seperti himpunan manuskrip dan teks bertulis yang lain.

Page 3: Korpus bahasa yeen kak ikin

KORPUS BAHASA

Page 4: Korpus bahasa yeen kak ikin

PANGKALAN DATA

Pangkalan Data Korpus (PDK) merupakan sebuah

pangkalan data yang dibangunkan hasil daripada

kerjasama antara Dewan Bahasa dan Pustaka

dengan Universiti Sains Malaysia (PDK DBP-USM)

pada tahun 1993.

PDK DBP-USM merupakan satu-satunya pangkalan

data korpus bahasa Melayu yang terdapat di

Malaysia yang menyimpan data korpus bahasa

Melayu dalam bentuk digital. PDK DBP-USM terdiri

daripada Sistem Korpus dan Data Korpus.

Page 5: Korpus bahasa yeen kak ikin

Data korpus bersumberkan bentuk tulisan atau lisan.

Bagaimanapun, usaha semasa program ini masih

tertumpu pada bahan tulisan daripada buku, majalah,

surat khabar, monograf, dokumen, kertas kerja, surat,

risalah dan sebagainya.

Setiap jenis wacana ini dikumpulkan dalam subkorpus

yang berasingan.

Saiz mutakhir (sehingga 25 November 2008)

Pangkalan Data Korpus adalah lebih kurang 135 juta

perkataan yang terkandung dalam sepuluh subkorpus

seperti yang berikut:

Page 6: Korpus bahasa yeen kak ikin

Bil Subkorpus Jumlah Semasa

Jenis Bahan

1. Buku    31,580,305

novel, buku ilmiah, buku umum, buku teks

2. Majalah 14,406,888 umum meliputi pelbagai bidang

3. Akhbar   80,029,34

7harian, tabloid,mingguan

4.Terjemahan (buku)

2,021,191 buku ilmiah, buku umum

5. Efemeral 290,207 risalah, brosur, iklan

6. Drama 404,176 drama yang dibukukan

7. Puisi 116,428 puisi yang dibukukan

8. Kad Bahan3,130,641

kad kutipan untuk penyusunan Kamus Dewan

9. Teks Tradisional

2,825,329Teks lama dalam bentuk hikayat,

cerita rakyat10.

Buku Teks   1,095,726Buku Teks Peringkat Rendah dan

Menengah

Page 7: Korpus bahasa yeen kak ikin

Pangkalan Data ini dibina dengan

tujuan untuk menyediakan data

penyelidikan yang dapat

dimanfaatkan untuk penyusunan kamus,

penyelidikan tatabahasa, dan bentuk-

bentuk kajian kebahasaan yang lain. 

Page 8: Korpus bahasa yeen kak ikin

PENGUMPULAN DAN PENGELASAN KATA

Selepas selesai pengumpulan data, penyusun

kamus haruslah menjalankan kerja pengisihan dan

pengabjadan data.

Dalam prosedur ini, setiap kata yang telah dirakam

akan disusun mengikut abjad.

Ini boleh dilakukan secara manual atau dengan

penggunaan komputer. Data ini akan disimpan dalam

bank data untuk digunakan sebagai rujukan kelak.

Page 9: Korpus bahasa yeen kak ikin

Setelah selesai pengisihan entri, penyusun kamus akan

bergerak kepada prosedur seterusnya, iaitu pengolahan

data.

Pada peringkat ini penyusun kamus akan

mengklasifikasikan kepada yang ditemui ke dalam kata

baharu, kata yang lewah, kata yang jarang digunakan

(neologisme) dan kata yang mengalami perubahan makna.

Kata lewah akan dibuang dengan menggunakan

pendekatan semantik dan pragmatik,

mendokumentasikan kata neologisme, dan seterusnya

mengambil kata-kata baru dan kata-kata yang mengalami

perubahan makna pada peringkat “pemerian makna”.

Page 10: Korpus bahasa yeen kak ikin

Selepas itu penyusun akan membuang kata-

kata lewah,mendokumentasikan neologisme

dan mengambil kata-kata baharu.

Pemberian makna ialah proses menjelaskan

makna sesuatu perkataan. Penyusun kamus

boleh menggunakan pelbagai bahan rujukan

yang sedia ada seperti daftar istilah dan

sebagainya untuk mencari maksud sesuatu

kata.

Page 11: Korpus bahasa yeen kak ikin

Pembutiran setiap medan maklumat secara

relatifnya berbeza antara satu kamus dengan yang

lain bergantung kepada tujuan kamus dihasilkan.

Medan maklumat bagi sebuah ekabahasa ialah

entri (kata masukan utama atau kata dasar),

subentri (kata terbitan), entri varian, subentri

varian,sebutan, etimologi, kelas kata, takrif,

contoh penggunaan, homonim,sinonim, antonim,

frasa dan ungkapan, simpulan bahasa dan

peribahasa,nama saintifik, label, angka penanda,

dan rujuk silang.

Page 12: Korpus bahasa yeen kak ikin

KATA DAN PENGKOMPUTERAN

Perancangan bahasa Melayu sebagai bahasa moden

diseiringkan juga dengan pemanfaatan teknologi

canggih, melalui program pengkomputeran.

Dua bentuk program yang dilaksanakan oleh Dewan

Bahasa dan Pustaka. Yang pertama ialah pembinaan

prasarana atau sistem untuk penyelidikan bahasa

Melayu, sementara yang kedua ialah penyelidikan

dalam bidang linguistik korpus dan linguistik

komputeran.

Page 13: Korpus bahasa yeen kak ikin

Setakat ini sebuah korpus bahasa Melayu dengan

saiz 70 juta patah kata daripada pelbagai teks

(akhbar, buku, novel, majalah) telah dibina untuk

kegunaan penyelidik bahasa di dalam dan di luar

negara.

Di peringkat kerjasama serantau, melalui

MABBIM, telah mula diusahakan pembinaan

Gerbang Bahasa Melayu/Indonesia pada WWW.

Gerbang atau portal tersebut akan menjadi wadah

bagi segala kemudahan untuk pengajaran,

pemelajaran, penyebaran dan penelitian bahasa

Melayu.

Page 14: Korpus bahasa yeen kak ikin

Di peringkat antarabangsa, Dewan Bahasa

dan Pustaka telah mula menyertai projek

Universal Networking Language Pertubuhan

Bangsa Bersatu.

Projek ini tertumpu pada usaha menakrifkan

suatu bahasa interlingua yang dapat

digunakan untuk mengekodkan teks dalam

sesuatu bahasa supaya teks tersebut dapat

dibaca dalam pelbagai bahasa di Internet.

Dijangka bahawa projek ini dapat meluaskan

penyebaran bahasa Melayu di mata dunia.

Page 15: Korpus bahasa yeen kak ikin

Pemanfaatan Teknologi Maklumat dan

Komunikasi telah dimulakan dengan Projek Karya

Net, penerbitan pelbagai karya ilmu, pedoman

bahasa dan karya kreatif dalam bentuk digital dan

pengajaran bahasa dan persuratan Melayu melalui

talian (Internet).

Dewan Bahasa dan Pustaka dengan kerjasama

pelbagai pihak sedang memperbanyak perisian

komputer dan karya dalam bentuk digital dan

elektronik dalam bahasa Melayu untuk membantu

pencapaian misi negara dalam mengejar kemajuan

pada era globalisasi.

Page 16: Korpus bahasa yeen kak ikin

SEKIAN,TERIMA KASIH ATAS

PERHATIAN ANDA SEMUA