252146380 korpus bahasa

16
KORPUS BAHASA : Pangkalan Data, Pengumpulan dan Pengelasan kata, Kata dan Pengkomputeran Ahli kumpulan : Azhari Ahmad Faizal Mokhtar Mohd Sani Sojahan Nik Samsuri Nik Shim

Upload: yuvarani-yuva

Post on 27-Jan-2016

254 views

Category:

Documents


0 download

DESCRIPTION

korpus

TRANSCRIPT

Page 1: 252146380 Korpus Bahasa

KORPUS BAHASA :

Pangkalan Data, Pengumpulan

dan Pengelasan kata, Kata dan

Pengkomputeran

Ahli kumpulan :

Azhari Ahmad

Faizal Mokhtar

Mohd Sani Sojahan

Nik Samsuri Nik Shim

Page 2: 252146380 Korpus Bahasa

KORPUS BAHASA

Kamus Dewan Edisi Ketiga 1994 - korpus boleh ditakrifkan

sebagai “himpunan makalah” (tulisan dsb) mengenai

sesuatu

perkara tertentu atau kumpulan bahan untuk kajian.

Linguistik Moden - korpus ialah himpunan data-data mentah

yang bakal digunakan untuk kajian lingustik. Contohnya

adalah

seperti himpunan manuskrip dan teks bertulis yang lain.

Page 3: 252146380 Korpus Bahasa

KORPUS BAHASA

Page 4: 252146380 Korpus Bahasa

PANGKALAN DATA

Pangkalan Data Korpus (PDK) merupakan sebuah

pangkalan data yang dibangunkan hasil daripada

kerjasama antara Dewan Bahasa dan Pustaka

dengan Universiti Sains Malaysia (PDK DBP-USM)

pada tahun 1993.

PDK DBP-USM merupakan satu-satunya pangkalan

data korpus bahasa Melayu yang terdapat di

Malaysia yang menyimpan data korpus bahasa

Melayu dalam bentuk digital. PDK DBP-USM terdiri

daripada Sistem Korpus dan Data Korpus.

Page 5: 252146380 Korpus Bahasa

Data korpus bersumberkan bentuk tulisan atau lisan.

Bagaimanapun, usaha semasa program ini masih

tertumpu pada bahan tulisan daripada buku, majalah,

surat khabar, monograf, dokumen, kertas kerja, surat,

risalah dan sebagainya.

Setiap jenis wacana ini dikumpulkan dalam subkorpus

yang berasingan.

Saiz mutakhir (sehingga 25 November 2008) Pangkalan

Data Korpus adalah lebih kurang 135 juta perkataan

yang terkandung dalam sepuluh subkorpus seperti

yang berikut:

Page 6: 252146380 Korpus Bahasa

Bil Subkorpus Jumlah Semasa

Jenis Bahan

1. Buku    31,580,305

novel, buku ilmiah, buku umum, buku teks

2. Majalah 14,406,888 umum meliputi pelbagai bidang

3. Akhbar   80,029,34

7harian, tabloid,mingguan

4.Terjemahan (buku)

2,021,191 buku ilmiah, buku umum

5. Efemeral 290,207 risalah, brosur, iklan

6. Drama 404,176 drama yang dibukukan

7. Puisi 116,428 puisi yang dibukukan

8. Kad Bahan3,130,641

kad kutipan untuk penyusunan Kamus Dewan

9. Teks Tradisional

2,825,329Teks lama dalam bentuk hikayat,

cerita rakyat10.

Buku Teks   1,095,726Buku Teks Peringkat Rendah dan

Menengah

Page 7: 252146380 Korpus Bahasa

Pangkalan Data ini dibina dengan

tujuan untuk menyediakan data

penyelidikan yang dapat

dimanfaatkan untuk penyusunan kamus,

penyelidikan tatabahasa, dan bentuk-

bentuk kajian kebahasaan yang lain. 

Page 8: 252146380 Korpus Bahasa

PENGUMPULAN DAN PENGELASAN KATA

Selepas selesai pengumpulan data, penyusun kamus

haruslah menjalankan kerja pengisihan dan

pengabjadan data.

Dalam prosedur ini, setiap kata yang telah dirakam

akan disusun mengikut abjad.

Ini boleh dilakukan secara manual atau dengan

penggunaan komputer. Data ini akan disimpan dalam

bank data untuk digunakan sebagai rujukan kelak.

Page 9: 252146380 Korpus Bahasa

Setelah selesai pengisihan entri, penyusun kamus akan

bergerak kepada prosedur seterusnya, iaitu pengolahan

data.

Pada peringkat ini penyusun kamus akan

mengklasifikasikan kepada yang ditemui ke dalam kata

baharu, kata yang lewah, kata yang jarang digunakan

(neologisme) dan kata yang mengalami perubahan makna.

Kata lewah akan dibuang dengan menggunakan

pendekatan semantik dan pragmatik, mendokumentasikan

kata neologisme, dan seterusnya mengambil kata-kata

baru dan kata-kata yang mengalami perubahan makna

pada peringkat “pemerian makna”.

Page 10: 252146380 Korpus Bahasa

Selepas itu penyusun akan membuang

kata-kata lewah,mendokumentasikan

neologisme dan mengambil kata-kata

baharu.

Pemberian makna ialah proses

menjelaskan makna sesuatu perkataan.

Penyusun kamus boleh menggunakan

pelbagai bahan rujukan yang sedia ada

seperti daftar istilah dan sebagainya untuk

mencari maksud sesuatu kata.

Page 11: 252146380 Korpus Bahasa

Pembutiran setiap medan maklumat secara

relatifnya berbeza antara satu kamus dengan yang

lain bergantung kepada tujuan kamus dihasilkan.

Medan maklumat bagi sebuah ekabahasa ialah

entri (kata masukan utama atau kata dasar),

subentri (kata terbitan), entri varian, subentri

varian,sebutan, etimologi, kelas kata, takrif,

contoh penggunaan, homonim,sinonim, antonim,

frasa dan ungkapan, simpulan bahasa dan

peribahasa,nama saintifik, label, angka penanda,

dan rujuk silang.

Page 12: 252146380 Korpus Bahasa

KATA DAN PENGKOMPUTERAN

Perancangan bahasa Melayu sebagai bahasa moden

diseiringkan juga dengan pemanfaatan teknologi

canggih, melalui program pengkomputeran.

Dua bentuk program yang dilaksanakan oleh Dewan

Bahasa dan Pustaka. Yang pertama ialah pembinaan

prasarana atau sistem untuk penyelidikan bahasa

Melayu, sementara yang kedua ialah penyelidikan

dalam bidang linguistik korpus dan linguistik

komputeran.

Page 13: 252146380 Korpus Bahasa

Setakat ini sebuah korpus bahasa Melayu dengan

saiz 70 juta patah kata daripada pelbagai teks

(akhbar, buku, novel, majalah) telah dibina untuk

kegunaan penyelidik bahasa di dalam dan di luar

negara.

Di peringkat kerjasama serantau, melalui

MABBIM, telah mula diusahakan pembinaan

Gerbang Bahasa Melayu/Indonesia pada WWW.

Gerbang atau portal tersebut akan menjadi wadah

bagi segala kemudahan untuk pengajaran,

pemelajaran, penyebaran dan penelitian bahasa

Melayu.

Page 14: 252146380 Korpus Bahasa

Di peringkat antarabangsa, Dewan Bahasa

dan Pustaka telah mula menyertai projek

Universal Networking Language Pertubuhan

Bangsa Bersatu.

Projek ini tertumpu pada usaha menakrifkan

suatu bahasa interlingua yang dapat

digunakan untuk mengekodkan teks dalam

sesuatu bahasa supaya teks tersebut dapat

dibaca dalam pelbagai bahasa di Internet.

Dijangka bahawa projek ini dapat meluaskan

penyebaran bahasa Melayu di mata dunia.

Page 15: 252146380 Korpus Bahasa

Pemanfaatan Teknologi Maklumat dan

Komunikasi telah dimulakan dengan Projek Karya

Net, penerbitan pelbagai karya ilmu, pedoman

bahasa dan karya kreatif dalam bentuk digital dan

pengajaran bahasa dan persuratan Melayu melalui

talian (Internet).

Dewan Bahasa dan Pustaka dengan kerjasama

pelbagai pihak sedang memperbanyak perisian

komputer dan karya dalam bentuk digital dan

elektronik dalam bahasa Melayu untuk membantu

pencapaian misi negara dalam mengejar kemajuan

pada era globalisasi.

Page 16: 252146380 Korpus Bahasa

SEKIAN,

TERIMA KASIH ATAS PERHATIAN ANDA

SEMUA