Download - Che Wan Shamsul Bahri Bin Che Wan Ahmad.pdf
LAPORAN KEMAJUAN PHD
CHE WAN SHAMSUL BAHRI BIN C.W.AHMAD
23 September 2014
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Bidang Penyelidikan
Artificial Intelligence (Machine Transliteration)
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Tajuk Penyelidikan
Transliterasi Mesin untuk Ejaan Melayu Lama
(Jawi) - Rumi
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Nama Penyelia
• Penyelia Pertama
Prof. Dr. Khairuddin Omar
• Penyelia kedua/bersama
Prof. Madya Dr. Mohammad Faidzul Nasrudin
Tuan Haji Mohd Zamri Murah
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Semester dan tahun kemasukan • Semester 1 – Oktober 2011
• Semester 7 – Oktober 2014
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Limitasi Kajian
• Kesukaran untuk mendapatkan set data Jawi lama
• Penggunaan kaedah statistik
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Kemajuan (60%)
a. Kertas Cadangan Penyelidikan (selesai)
b. Sorotan literatur (selesai)
c. Rekabentuk penyelidikan (selesai)
d. Pembangunan Sistem (50-75%)
e. Analisa Data (50%)
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Penulisan Tesis (35-40%)
• Bilangan Bab yang siap – 2 bab awal
• Bilangan Bab yang diserahkan kepada penyelia
• Bilangan Bab yang belum/sedang ditulis – 3 bab
• Tarikh Jangkaan Tesis diserahkan – hujung 2015
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Penyataan Masalah
Walaupun terdapat banyak kajian transliterasi dalam bahasa asing, namun kajian dalam bahasa Melayu masih berkurangan. Oleh yang demikian, kajian ini lebih memfokuskan kepada transliterasi manuskrip Melayu lama yang menggunakan tulisan Jawi lama untuk ditukar kepada Rumi (Roman). Terdapat juga keperluan untuk melakukan transliterasi berdasarkan konteks ayat memandangkan tiada kajian yang dilakukan oleh pengkaji-pengkaji sebelum ini.
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Penyataan Masalah
Konteks ayat penting bagi perkataan yang mempunyai homograf kerana ia tidak hanya boleh menggunakan pemetaan terus. Dengan transliterasi berasaskan konteks, masalah kesukaran membezakan vokal e-taling dan e-pepet dalam kajian Yonhendri (2009) mungkin dapat diselesaikan.
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Transliterasi Jawi - Rumi
Huruf / abjad sumber (contoh, Arab)
عبد الرمحن
transliterasi
Huruf / abjad sasaran (contoh, Rumi) Abdul Rahman
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Jawi lama dan transliterasi
ايه ڤايك توڤي، تميبق توڤي برسام انچئ جوهر د جوهر
Ayah pakai topi, tembak tupai bersama Encik Johar di Johor
ايه ماكن ڬويل، سدڠكن انق برماءين ڬويل
Ayah makan gulai, sedangkan anak bermain guli
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Transliterasi
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
نعمةNikmat
نقمة
Persoalan Kajian
• Adakah terdapat teknik yang khusus dalam transliterasi mesin pada manuskrip Melayu lama?
• Apakah pendekatan atau teknik yang sesuai digunapakai dalam transliterasi mesin pada manuskrip Melayu lama terutamanya yang melibatkan perkataan homograf?
• Adakah model yang dicadangkan dalam transliterasi Jawi - Rumi berjaya mendapatkan hasil yang diharapkan?
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Objektif Kajian
• Membangunkan satu kerangka kerja (framework) untuk transliterasi mesin terhadap manuskrip Melayu yang menggunakan ejaan Jawi lama kepada Rumi.
• Mencadangkan satu model dan algoritma yang sesuai untuk melakukan transliterasi pada manuskrip Melayu lama.
• Melakukan ujian atau penilaian terhadap algoritma yang dicadangkan.
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Skop Kajian
Kajian terhadap kaedah transliterasi mesin (automatik) terhadap ejaan Jawi lama (Zaaba) kepada Rumi
• Manuskrip Melayu lama
• Teks Kitab Hidayah Al Salikin
• Teks Jawi lama
• Majalah Qalam
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Rajah 2: Penerbitan Majalah Melayu pada kurun ke 20 Sumber : http://www.cias.kyoto-u.ac.jp/~yama/jawi/database.html
Cover majalah Qalam
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Kerangka Kajian
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Kajian Literatur Bangun
Model
Transliterasi
Transliterasi TeJaR
Pemproses Kata
Pasca Transliterasi Pengujian
Pembangunan
Mula
Tokenisasi
Kata akar yang tepat
Proses Semak Hasil Cantasan
Petua Cantasan
Semak Pola
Hasil = benar
Tamat
YA
TIDAK
Daftar Kata
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Cantasan (Stemming)
(memakan) مماكن
(pemakanan) ڤاماكنن (makan) ماكن
(makanan) ماكنن
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Transliterasi Berasaskan Petua Suku kata (Pola kv+kk) => kvkak
ماكن
ما كن
ma kan +
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Ujikaji dan Hasil
T1 T2 T3 Purata
Enjin Transliterasi Rumi-Jawi
(TERUJA) 36.28 24.09 42.86 34.41
e-jawi.net 23.01 16.79 41.38 27.06
Petua Transliterasi Jawi Lama-Rumi
(TeJaR) 18.02 19.73 36.31 24.69 LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Peratusan Ralat
Algorithma Transliterasi
1. Mula 2. Tokenisasi, N1 3. Semak Daftar Kata Jawi-Rumi, jika ada terus ke 8 (option) 4. Semak Panjang Perkataan, L 5. Jika L > 6 , Maka Perlu Melalui Proses Cantasan > 6 aksara Jika L = 6 , Maka Perlu Melalui Proses Cantasan = 6 aksara
...
Sekiranya Tidak Terus, Ke Transliterasi 6. Proses Cantasan
i. Semak Imbuhan Awalan ii. Semak Imbuhan Akhiran iii. Semak Imbuhan Apitan
7. Transliterasi OOV i. Petua ii. Statistik analisis
8. Dapatkan Rumi 9. Tamat
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Senarai Rujukan
• Mansur Arbabi, Scott M. Fischthal, Vincent C. Cheng, Elizabeth Bart (1994). Algorithms for Arabic name transliteration. Journal: Ibm Journal of Research and Development - IBMRD , vol. 38, no. 2, pp. 183-194,
• Yaser Al-onaizan, Kevin Knight (2002). Machine Transliteration of Names in Arabic Text
• Nasreen AbdulJaleel, Leah S. Larkey (2003). Statistical transliteration for english-arabic cross language information retrieval. International Conference on Information and Knowledge Management - CIKM , pp. 139-146, 2003
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
• Suliana Sulaiman. (2013). Pencantas Perkataan Melayu Untuk Aksara Jawi Berasaskan Petua. Doktor Falsafah Tesis, Universiti Kebangsaan Malaysia, Bangi.
• Suliana Sulaiman, Khairuddin Omar, Nazlia Omar, Mohd Zamri Murah, & Rahman, Hamdan Abdul. (2011, December 5-8, 2011). A Malay Stemmer for Jawi Characters. Paper presented at the 24th Australian Joint Conference Perth, Australia, Proceedings AI 2011: Advances in Artificial Intelligence, Perth, Australia.
• Yonhendri. (2009). Transliterasi Rumi ke Jawi berasaskan petua. Sarjana Tesis Sarjana, Universiti Kebangsaaan Malaysia.
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
Senarai Prosiding dan Jurnal
1. Che Wan Shamsul Bahri C.W.Ahmad, Khairuddin Omar, Mohammad Faidzul Nasrudin, Mohd Zamri Murah, Mohd Sanusi Azmi, Hamdan Abdul Rahman (2013), Kerangka Awal Transliterasi Mesin Teks Jawi Pada Batu Bersurat Piagam Terengganu (BBPT) dalam Buku Batu Bersurat Piagam Terengganu: Wadah Intelektual Tamadun Melayu. Kuala Terengganu, MALAYSIA. pp. 215 -236, ISBN 978-983-43021-3-9. Cetakan kedua 2013.
2. Khairuddin Omar, Mohd Sanusi Azmi, Mohammad Faidzul Nasrudin, Che Wan Shamsul Bahri C.W.Ahmad, Azizi Abdullah (2013), Batu Bersurat Terengganu : Perluasan Model Segitiga dalam Kajian Digital Paleografi Jawi (BBPT) dalam Buku Batu Bersurat Piagam Terengganu: Wadah Intelektual Tamadun Melayu. Kuala Terengganu, MALAYSIA. pp. 190 -202, ISBN 978-983-43021-3-9. Cetakan kedua 2013.
3. Khairuddin Omar, Che Wan Shamsul Bahri C.W.Ahmad, Mohammad Faidzul Nasrudin, Mohd Zamri Murah, Mohd Sanusi Azmi, (2013), “Sistem Ejaan Jawi Lama dan Baru serta Isu-Isu berkaitan Transliterasi: Kajian Kes Terhadap Kitab Hidayah Al-Salikin”. Jurnal Filologi Melayu, Jilid 20, ISSN:0128-0048, 2013
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
4. Khairuddin Omar, Mohd Sanusi Azmi, Mohammad Faidzul Nasrudin, Azizi Abdullah, Che Wan Shamsul Bahri C.W.Ahmad, (2012), “Paleografi Jawi Digital : Kajian dalam Perspektif Sains Komputer”. Jurnal Filologi Melayu, Jilid 19, ISSN:0128-0048, 2012
5. Khairuddin Omar, Mohd Sanusi Azmi, Mohammad Faidzul Nasrudin, Azizi Abdullah, Che Wan Shamsul Bahri C.W.Ahmad, (2013), “Paleografi Jawi Digital Wadah Baru Kajian Tempat Asal Manuskrip Melayu Lama”. Jurnal Filologi Melayu, Jilid 20, ISSN:0128-0048, 2013
6. Juhaida Abu Bakar, Khairuddin Omar, Mohammad Faidzul Nasrudin, Mohd Zamri Murah, Che Wan Shamsul Bahri C.W.Ahmad (2013), Implementation of Buckwalter Transliteration to Malay Corpora. Proceeding of the 13th International Conference on Intelligent Systems Design and Applications (ISDA), ISBN 978-1-4799-3516-1. pp.213-218.
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
7. Che Wan Shamsul Bahri C.W.Ahmad, Khairuddin Omar, Mohammad Faidzul Nasrudin, Mohd Zamri Murah, Juhaida Abu Bakar (2013), Rule Based For Old Jawi – Malay Machine Transliteration. Proceeding of the International Conference on Artificial Intelligence in Computer Science and ICT (AICS2013), 25 - 26 November 2013, Langkawi, MALAYSIA, e-ISBN 978-967-11768-3-2. pp. 379-386.
8. Che Wan Shamsul Bahri C.W.Ahmad, Khairuddin Omar, Mohammad Faidzul Nasrudin, Mohd Zamri Murah (2013), A Hybrid Model for Old Malay Machine Transliteration. Presented at International Multi-Conference on Artificial Intelligence Technology (M-CAIT 2013), 28-29 Ogos 2013, Shah Alam, MALAYSIA.
9. Mohd Sanusi Azmi, Khairuddin Omar, Mohammad Faidzul Nasrudin, Che Wan Shamsul Bahri C.W.Ahmad and Khadijah Wan Mohd Ghazali (2013), Exploiting Features from Triangle Geometry for Digit Recognition, presented at International Conference on Control, Decision and Information Technologies 2013(CoDIT'13), Hammamet, Tunisia, May 6-8, 2013. IEEE.
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14
10. Che Wan Shamsul Bahri C.W.Ahmad, Khairuddin Omar, Mohammad Faidzul Nasrudin, Mohd Zamri Murah, Mohd Sanusi Azmi (2013), Machine Transliteration Design for Old Malay Manuscript. Proceeding of the 2nd International Conference on Machine Learning and Computer Science (IMLCS'2013). 6-7 May 2013, Kuala Lumpur , Malaysia. ISBN 978-93-82242-29-1. pp. 23-26.
LAP
OR
AN
KEM
AJU
AN
PH
D S
EPT
20
14