Transcript
Page 1: Kesesuaian Item Dan Ujian

90 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

PENGENALAN

Anda telah melalui pembinaan item ujian di Topik 4. Sekarang ini selepas item dibina danujian digubal, analisis item dan ujian perlu dibuat untuk memastikan item/soalan dan ujianyang dihasilkan itu sesuai digunakan. Analisis item membolehkan anda menilai kesesuaianitem tersebut dari segi kesukarannya, iaitu sama ada item tersebut terlalu mudah atau terlalusukar bagi sesuatu kumpulan pelajar. Selain itu, analisis item juga dapat menunjukkankeupayaan sesuatu item itu mengasingkan pelajar pandai daripada pelajar lemah. Selepasmembuat analisis item, anda digalakkan membuat analisis ujian (satu set item yang dibina)untuk menentukan darjah ketekalan ukuran yang dihasilkan oleh ujian tersebut dan juga apakahsebenarnya yang diukur oleh ujian ini. Analisis-analisis ini akan menghasilkan pekali/indeksyang dinamakan Indeks Kesukaran Item, Indeks Diskriminasi Item, Indeks KebolehpercayaanUjian dan Indeks Kesahan Ujian. Analisis-analisis ini perlu dilakukan supaya ujian yangdihasilkan adalah sesuai/sah bagi sesuatu tujuan tertentu.

OBJEKTIF

Diakhir tajuk ini, anda seharusnya dapat:

1. membina dan menilai soalan berdasarkan Indeks Kesukaran;

2. membina dan menilai soalan berdasarkan Indeks Diskriminasi;

3. membina dan menilai soalan berdasarkan Kebolehpercayaan Ujian; dan

4. membina dan menilai soalan berdasarkan Kesahan Ujian.

PETA MINDA

Page 2: Kesesuaian Item Dan Ujian

OUM 91

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

5.1 INDEKS KESUKARAN ITEM

Ciri pertama yang dapat menentukan kualiti sesuatu item ujian ialah indeks kesukaran item(item difficulty index) (p). Indeks ini dapat menunjukkan aras kesukaran sesuatu item, iaitusama ada sesuatu item itu mudah dijawab atau susah dijawab. Bagi ujian berbentuk objektif(betul/salah, isi tempat kosong, padanan, beraneka pilihan), indeks ini dikira denganmenggunakan nisbah bilangan calon yang memberi jawapan betul bagi item tertentu kepadajumlah calon yang menjawab item tersebut. Pengiraannya adalah seperti persamaan berikut:

p = Bilangan calon yang memberi jawapan betul Jumlah calon yang menjawab

Sebagai contoh, satu soalan dapat dijawab dengan betul oleh 30 orang pelajar daripadasejumlah 40 orang pelajar yang menjawab soalan tersebut. Nilai p bagi soalan ini ialah 30/40= 0.75. Nilai p ialah antara 0.00 hingga 1.00. Sekiranya tiada seorang pelajar pun dapatmenjawab dengan betul, maka nilai p akan menjadi 0 (soalan amat sukar), tetapi jika semuapelajar dapat menjawab dengan betul, nilai p akan menjadi 1 (soalan terlalu mudah). Justeru,item yang sukar mempunyai nialai p yang rendah, sebaliknya item yang mudah mempunyainilai p yang tinggi, seperti yang ditunjukkan dalam Rajah 5.1 di bawah.

Pernahkah anda terfikir bagaimanakah tahap-tahap kesukaran sesuatu ujianbertulis tersebut diadakan?. Apakah spesifikasi yang digunakan bagimembolehkan sesuatu ujian tersebut sesuai pada masa ia diadakan?

Rajah 5.1: Indeks kesukaran dan kesukaran item

Latihan 5.1

Item A mendapat respons betul oleh 50 daripada 80 orang pelajar, sementaraItem B mendapat respons betul oleh 20 daripada 40 orang pelajar. Item manayang lebih sukar?

Page 3: Kesesuaian Item Dan Ujian

92 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

Dari segi kesesuaian soalan ujian rujukan norma, pembina soalan perlu diingatkan bahawasoalan yang terlalu mudah (p > 0.85) atau soalan yang terlalu sukar (p < 0.15) tidak dapatmemberikan maklumat psikometrik (ukuran psikologi) yang bermakna. Ini adalah disebabkansoalan yang terlalu mudah akan dapat dijawab oleh hampir semua pelajar, sementara soalanyang terlalu sukar tidak akan dapat dijawab oleh hampir semua pelajar. Justeru, soalan-soalantidak dapat membezakan pelajar yang lebih rendah keupayaan dengan yang lebih tinggikeupaayaan. Sebagai panduan, aras kesukaran item boleh ditafsirkan mengikut nilai p sepertiyang ditunjukkan dalam Jadual 5.1.

Bagi ujian objektif, indeks kesukaran menggambarkan peratusan pelajar yang menjawabsesuatu item dengan betul. Lagi tinggi peratusan pelajar menjawab sesuatu item denganbetul, lagi mudahlah item tersebut (Wood, 1960). Item yang dijawab dengan betul oleh 85%pelajar akan mempunyai nilai p = 0.85, manakala item yang dijawab dengan betul oleh 50%pelajar akan mempunyai nilai p = 0.50. Sebaliknya, indeks kesukaran item boleh memberijangkaan peratus pelajar yang dapat menjawab item tersebut dengan betul. Misalnya, jikaindeks kesukaran bagi sesuatu item ialah 0.65, ini bermakna 65% pelajar akan dapat menjawabitem tersebut dengan betul.

Sebagai ingatan, nilai p merupakan nilai yang relatif kepada sesuatu kumpulan pelajar yangmengambil ujian. Nilai ini boleh berubah mengikut keupayaan kumpulan pelajar tersebut, danseterusnya boleh berubah sekiranya kumpulan calon yang sama menduduki ujian kali kedua.Sebagai contoh, item manakah lebih sukar antara “Siapakah Tunku Abdul Rahman Putra Al-Haj?” dan “Siapakah Tun Dr.Mahathir?”?. Kita tidak boleh menyatakan item mana yang lebihsukar selepas membaca soalan ini. Kita hanya boleh menentukan kesukaran soalan ini selepaskita mentadbirkannya kepada sekumpulan pelajar dan mengira nilai p bagi soalan ini.

Bagi item subjektif (esei); yang markahnya mengambil nilai 0, 1, 2, 3, …; indeks kesukarannyaboleh dikira sebagai nisbah markah purata (markah min) kepada julat markah penuh sepertiberikut (Nitko, 2004: 317):

Indeks kesukaran item (p) = __Markah Purata__Julat Markah Penuh

Sebagai contoh, suatu item ujian esei berjawapan pendek diberi markah minimum 0 danmaksimum 10. Sepuluh (10) orang pelajar (P) telah menjawab soalan ini dan mendapatmarkah seperti dalam jadual di bawah. Jumlah markah bagi 10 orang pelajar ialah 63.0.Pengiran indeks kesukaran item ialah seperti berikut:

Jadual 5.1: Aras Kesukaran dan Pengkelasan Item

Nilai (p) Pengkelasan Item

0.00 – 0.20 Terlalu sukar

0.21 – 0.40 Sukar

0.41 – 0.60 Sederhana sukar

0.61 – 0.80 Mudah

0.81 – 1.00 Terlalu mudah

Page 4: Kesesuaian Item Dan Ujian

OUM 93

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Markah Purata = Jumlah markah = 63.0/10 = 6.3. Jumlah pelajar

Julat Markah Penuh = Markah maksimum – Markah minimum = 10 - 0 = 10

Indeks Kesukaran = Markah Purata__ = 6.3/10 = 0.63 = 63% Julat Markah Penuh

Berbeza daripada indeks kesukaran item objektif, indeks kesukaran item subjektif dapatmenggambarkan markah purata bagi sesuatu item dalam peratus. Contohnya, markah purata6.3 (daripada 10) ialah 63% (iaitu sama dengan indeks kesukaran dikalikan dengan 100).

Seterusnya, indeks kesukaran item yang dapat menghasilkan indeks diskriminasi item (akandibincangkan kemudian) yang maksimum ialah antara 0.50 hingga 0.85, bergantung kepadaformat item. Indeks kesukaran tersebut ialah 0.50 bgi item berjawapan pendek/melengkap,0.70 bagi item objektif lima-opsyen, 0.74 bagi item objektif empat-opsyen, 0.77 bagi itemobjektif tiga-opsyen, dan 0.85 bagi item objektif dua-opsyen (betul/salah) [Lord (1952) dalamMehrens & Lehmann (1991)]. Selain itu, Nitko (2004: 323) menyatakan indeks kesukaranbagi item-item ujian yang mengukur satu jenis keupayaan (contohnya, membaca) haruslahantara 0.16 dan 0.84 (iaitu ada item-item mudah, sederhana sukar dan sukar); sementarabagi item-item ujian yang mengukur dua jenis keupayaan (contohnya, membaca dan menulis)haruslah mempunyai indeks kesukaran item antara 0.40 hingga 0.60 (item-item sederhanasukar).

Selain menjadi panduan semasa membina item supaya indeks diskriminasi menjadimaksimum, indek kesukaran juga boleh digunakan untuk tujuan-tujuan berikut:

Jadual 5.2: Tujuan Indeks Kesukaran

1 • mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru mendapati soalan-soalan berkenaan tidak dapat dijawab oleh sebahagian besar pelajar (soalan sukar);

2 • mengenal pasti dan melaporkan kekuatan dan kelemahan bahagian-bahagiankurikulum, iaitu yang boleh dikuasai pelajar dan yang tidak boleh dikuasai pelajar;

3 • memberi maklum balas kepada pelajar tentang kekuatan dan kelemahan mereka bagisetiap tajuk pengajaran yang diuji; dan

4 • mengenal pasti soalan yang bias kepada sesuatu kandungan (content bias), sepertikandungan yang ditekankan semasa pengajaran (misalnya, diberi latih tubi/ulangan).

Tujuan Penerangan

Pelajar P1 P2 P3 P4 P5 P6 P7 P8 P9 P10 Jumlah

Markah 6.5 3.5 7.0 2.5 4.5 8.5 9.0 6.5 9.5 5.5 63.0

Latihan 5.2

Satu item subjektif diberi markah minimum 1 dan maksimum 5. Markah lima(5) orang pelajar ialah 3, 2, 4, 2, 5. Kira indeks kesukaran item ini. Adakahitem ini mudah atau susah?

Page 5: Kesesuaian Item Dan Ujian

94 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

5.2 INDEKS DISKRIMINASI ITEM

Salah satu daripada tujuan ujian ialah untuk mengenal pasti calon/pelajar yang berkeupayaantinggi, untuk matlamat tertentu, seperti melanjutkan pengajian dalam bidang tertentu. Item/soalan yang baik akan dapat membezakan/mendiskriminasikan antara mereka yangberkeupayaan rendah dan yang berkeupayaan tinggi. Indeks yang diguna untuk menentukanperbezaan keupayaan pelajar ini ialah indeks diskriminasi item. Indeks Diskriminasi bolehdikira melalui langkah-langkah Mehrens & Lehmann, (1991) dan contoh berikut:

(1) Membahagikan pelajar kepada tiga (3) kumpulan, iaitu pelajar berpencapaian rendah(27% pelajar berpencapaian terrendah), pelajar berpencapaian sederhana (46% pelajarberpencapaian antara terrendah dan tertinggi) dan pelajar berpencapaian tinggi (27%pelajar berpencapaian tertinggi).

(2) Mengira bilangan pelajar yang menjawab dengan betul di kalangan pelajar berpencapaianrendah (RL – Right Lower), bilangan pelajar yang menjawab dengan betul di kalanganpelajar berpencapaian tinggi (RU – Right Upper) dan jumlah pelajar berpencapaian rendahdan tinggi (T(L+U) – Total).

(3) Indeks Disckriminasi boleh dikira dengan membahagikan perbezaan (RU – RL) denganseparuh T(L+U) seperti berikut:

Indeks Diskriminasi (d) = (RU – RL)

(1/2 T(L+U))

(4) Sebagai contoh, andaikan seramai 200 orang pelajar menjawab soalan tertentu. Setelah54 orang (27% daripada 200) pelajar berpencapaian tinggi dikenalpasti, didapati 45orang daripada mereka dapat menjawab soalan tersebut dengan betul (RU = 45).Seterusnya, daripada 54 orang pelajar berpencapaian rendah, seramai 15 orang dapatmenjawab dengan betul (RL = 15). Dalam contoh ini, jumlah pelajar berpencapaian rendahdan tinggi ialah 108 orang (T(L+U) = 54 + 54 = 108). Indeks Disckriminasi boleh dikiraseperti berikut:

Indeks Diskriminasi = (RU – RL) = (45 – 15) = 30 = 0.56

(1/2 T(L+U)) (1/2 x 108) 54

Diskriminasi sering dianggap sebagai suatu perkara yang boleh diraguikeberkesanannya. Apakah sebenarnya peranan indeks diskriminasi itemuntuk membezakan di antara seorang pelajar dengan pelajar yang lain?

Page 6: Kesesuaian Item Dan Ujian

OUM 95

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

(5) Dalam contoh ini, Indeks Diskriminasi boleh bernilai 1.00, sekiranya semua pelajarberpencapaian tinggi dan tiada seorang pun pelajar berpencapaian rendah dapatmenjawab soalan ini dengan betul (RU – RL = 54 – 0 = 54):

Indeks Diskriminasi = (RU – RL) = (54 – 0) = 54 = 1.00

(1/2 T(L+U)) (1/2 x 108) 54

(6) Indeks Diskriminasi boleh bernilai 0.00, sekiranya bilangan pelajar berpencapaian tinggidan rendah yang dapat menjawab soalan ini dengan betul adalah sama (RU – RL = 0).

Indeks Diskriminasi = (RU – RL) = (0) = 0 = 0.00

(1/2 T(L+U)) (1/2 x 108) 54

(7) Akhirnya, Indeks Diskriminasi boleh bernilai -1.00, sekiranya semua pelajar berpencapaianrendah dan tiada seorang pun pelajar berpencapaian tinggi dapat menjawab soalan inidengan betul (RU – RL = 0 - 54 = -54).

Indeks Diskriminasi = (RU – RL) = (0 – 54) = -54 = -1.00

(1/2 T(L+U)) (1/2 x 108) 54

Justeru, daripada contoh yang diberikan di atas, kita dapat melihat Indeks Diskriminasi bolehbernilai antara -1.00 hingga 1.00. Secara amnya, item yang mempunyai Indeks Diskriminasipositif menunjukkan pelajar berpencapaian tinggi lebih ramai dapat menjawab sesuatu soalandengan betul daripada pelajar berpencapaian rendah. Secara logiknya, kita memangmengandaikan lebih ramai pelajar berpencapaian tinggi akan dapat menjawab sesuatu soalandengan betul berbanding pelajar berpencapaian rendah. Ini menjadikan nilai Indeks Diskriminasihampir kepada 1.00, yang juga bermakna soalan tersebut adalah baik untuk Penilaian RujukanNorma (PRN) sebab ia dapat membezakan (discriminate) pelajar berpencapaian tinggi/pandaidaripada pelajar berpencapaian rendah/lemah.

Seterusnya, bagi soalan-soalan yang mempunyai Indeks Diskriminasi positif yang menghampiri0.00, soalan-saolan ini dikatakan tidak baik untuk PRN, sebab ia tidak berupaya membezakanpelajar pandai daripada pelajar lemah. Akhirnya, bagi soalan-soalan yang mempunyai IndeksDiskriminasi negatif yang menhampiri -1.00, soalan-saolan ini dikatakan tidak baik untuk PRN,sebab ia secara songsang membezakan pelajar pandai daripada pelajar lemah, iaitu lebihramai pelajar lemah dapat menjawab soalan-soalan ini dengan betul daripada pelajar pandai.Justeru, pembina soalan perlu memperbaiki/menggantikan soalan yang mempunyai IndeksDiskriminasi yang rendah atau pun negatif. Sebagai panduan, aras kesukaran item bolehditafsirkan mengikut nilai p seperti yang ditunjukkan dalam Jadual 5.3.

Page 7: Kesesuaian Item Dan Ujian

96 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

Menurut Hanna dan Dettmer (2004: 252), soalan-soalan yang dibina oleh guru hanyamempunyai Indeks Kesukaran antara 0.00 hingga 0.50. Bagaimanapun, menurut Mehrensdan Lehmann (1991), Indeks Diskriminasi untuk soalan-soalan ujian di bilik darjah perlu melebihi0.20, sekiranya pencapaian pelajar dibahagikan kepada dua (separuh berpencapaian rendah,separuh berpencapaian tinggi). Indeks ini sepatutnya lebih tinggi daripada 0.20, sekiranyapelajar dibahagikan kepada 27% berpencapaian rendah dan 27% berpencapaian tingggi.Seterusnya, Nitko (2004: 323) menyatakan item yang boleh dipilih untuk sesuatu ujianhendaklah mempunyai Indeks Diskriminasi melebihi 0.30. Justeru, sebagai kesimpulan, item/soalan yang baik untuk sesuatu ujian perlu mempunyai Indeks Diskriminasi melebihi 0.30.Bagaimanapun, Indeks Diskriminasi yang lebih tinggi diperlukan untuk ujian-ujian PRN. Akhirnya,seperti juga Indeks Kesukaran, selain menjadi panduan semasa membina item, IndekDiskriminasi juga boleh digunakan untuk lima tujuan berikut:

Jadual 5.3: Aras Diskriminasi dan Pengkelasan Item

Nilai (d) Pengkelasan Item

0.00 – 0.10 Tidak baik

0.11 – 0.20 Kurang baik

0.21 – 0.30 Sederhana baik

0.31 – 0.40 Baik

0.41 – 1.00 Sangat baik

Jadual 5.4: Tujuan Indeks Diskriminasi

1 • mengenal pasti konsep yang perlu diajar semula, iaitu apabila guru mendapati soalan-soalan berkenaan tidak dapat dijawab oleh sebahagian besar pelajar pandai;

2 • mengenal pasti dan melaporkan kekuatan dan kelemahan bahagian-bahagiankurikulum, iaitu yang tidak boleh dikuasai pelajar pandai;

3 • memberi maklum balas kepada pelajar pandai tentang kelemahan mereka bagi setiaptajuk pengajaran yang diuji; dan

4 • mengenal pasti soalan yang bias kepada sesuatu kandungan, seperti kandunganyang tidak ditekankan semasa pengajaran atau langsung tidak diajar.

5 • mengenal pasti pelajar-pelajar yang berpencapaian tinggi untuk melanjutkan pengajiandalam bidang-bidang tertentu.

Tujuan Penerangan

Page 8: Kesesuaian Item Dan Ujian

OUM 97

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

5.3 KEBOLEHPERCAYAAN UJIAN

Darjah ketekalan ukuran-ukuran boleh ditentukan dalam pelbagai keadaan, misalnya, apabilaujian yang sama diambil oleh pelajar kali kedua, ujian yang sama ditadbirkan oleh guru lain,ujian yang sama diambil oleh pelajar pada waktu yang berbeza (pagi/petang), jawapan kepadaujian yang sama diperiksa oleh pemeriksa yang berbeza. Ujian yang baik/sesuai adalah ujianyang mempunyai darjah ketekalan (degree of consistency) yang tinggi, iaitu markah/skoryang dihasilkan adalah hampir sama dalam apa jua keadaan.

Bagaimanapun, perlu diingatkan bahawa ujian yang mempunyai darjah ketekalan yang tinggi,tidak semestinya menghasilkan ukuran yang sebenar/sah. Dalam makmal sains, misalnya,seseorang guru mengharapkan berat yang sama diperoleh apabila sesuatu benda ditimbangbeberapa kali (katakan 90 gram). Walaupun alat ini memberi berat yang sama (90 gram)setiap kali ditimbang, tetapi berat ini kurang daripada berat sebenar (katakan kurang 10 gram).Maka berat sebenar/sah bukanlah 90 gram, tetapi 100 gram. Ini menunjukkan, walaupunsesuatu alat itu memberi ukuran yang sama (tekal), tetapi ukuran yang diberikan adalah tidakbenar/sah. Begitu juga dengan ujian, walaupun markah/skor yang diberikan adalah samadalam semua keadaan/situasi, tetapi ukuran yang terhasil tidak menggambarkan keupayaansebenar pelajar/calon.

Konsep asas teori pengukuran ialah skor yang diperoleh (observed score) daripada mana-mana alat ukur (termasuk ukuran fizikal seperti berat dan ukuran abstrak seperti kecerdasan)adalah terdiri daripada dua bahagian/komponen, iaitu (1) skor sebenar (true score), iaitu ukuransebenar sesuatu konstruk; dan (2) ralat (error), iaitu kesilapan yang disebabkan oleh alatukuran yang digunakan. Oleh itu, kita boleh membuat andaian bahawa tiada skor yang dapatmemberikan ukuran sebenar sesuatu konstruk yang ingin diukur. Di sini konstruk bermaksudkonsep yang abstrak, yang telah diterjemahkan kepada pembolehubah yang boleh diukur,seperti sikap, minat, motivasi, suhu, tekanan, berat dan jarak. Justeru, sekiranya ukuran bolehdibuat tanpa ralat, maka kebolehpercayaan alat ukurnya adalah tinggi. Bagaimanapun,disebabkan sesuatu ukuran itu sentiasa mempunyai ralat, maka darjah kebolehpercayaannyaakan berbeza, bergantung kepada saiz ralatnya.

5.3.1 Indeks Kebolehpercayaan

Dari segi definisi operasi, pekali/indeks kebolehpercayaan boleh dikira/dianggar (compute/estimate) dengan menggunakan pekali korelasi antara dua (2) ukuran yang boleh dikira

Kebolehpercayaan (reliability) sesuatu alat ukuran bermaksud ketekalanukuran-ukuran (consistency of measures) yang dihasilkan oleh alat tersebut(Hanna & Dettmer, 2004). Justeru, kebolehpercayaan ujian bermaksudketekalan markah-markah yang dihasilkan oleh ujian tersebut.

Latihan 5.3

Seramai 40 daripada 50 orang pelajar berpencapaian rendah dapat menjawabsatu soalan objektif dengan betul, sementara 20 daripada 50 orang pelajarberpencapaian tinggi dapat menjawab soalan ini dengan betul. Kira IndeksDiskriminasi soalan ini dan jelaskan kesesuaiannya

Page 9: Kesesuaian Item Dan Ujian

98 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

menggunakan pelbagai kaedah. Seperti julat pekali korelasi, julat indeks kebolehpercayanjuga adalah antara -1.00 hingga + 1.00. Indeks kebolehpercayaan negatif menunjukkanketekalan yang songsang, iaitu pelajar yang mendapat skor tinggi dalam ujian kali pertamaakan mendaapat skor yang rendah dalam ujian kali kedua, dan sebaliknya. Kita berharapkeadaan begini tidak berlaku dalam mana-mana ujian. Kebiasaannya indeks kebolehpercayaanbernilai positif, dan bagi kebanyakan ujian, indeks antara 0.65 dan 0.85 adalah memadai.Sebagai panduan, kebolehpercayaan ujian boleh ditafsirkan mengikut indeks (r) seperti yangditunjukkan dalam Jadual 5.5.

Seterusnya, Mehrens dan Lehmann (1991) menyenaraikan lima jenis kebolehpercayaan danjuga kaedah menentukan indeksnya. Jenis-jenis kebolehpercayaan tersebut ialah: (1) UkuranKestabilan (Measure of Stability), Ukuran Kesetaraan (Measure of Equivalence), (3) UkuranKesetaraan dan Kesetabilan (Measure of Equivalence and Stability ), (4) Ukuran KetekalanDalaman (Measure of Internal Consistency), dan (5) Kebolehpercayaan Pemeriksa (ScorerReliability). Jenis-jenis kebolehpercayaan, kaedah pengukuran dan kaedah pengiraan indekskebolehpercayaan berkenaan dijelaskan dalam bahagian berikut.

Jadual 5.5: Indeks Kebolehpercayaan dan Pengkelasan Ujian

Nilai (r) Pengkelasan Ujian

< 0.20 Tidak baik

0.21 – 0.40 Kurang baik

0.41 – 0.60 Sederhana baik

0.61 – 0.80 Baik

0.81 – 1.00 Sangat baik

Rajah 5.2: 5 jenis kebolehpercayaan ujian Mehrens dan Lehmann (1991)

JENIS-JENIS KEBOLEHPERCAYAAN

Ukuran Kestabilan

Ukuran Kesetaraan Ukuran KetekalanDalaman

Ukuran Kesetaraandan Kestabilan

KebolehpercayaanPemeriksa

Page 10: Kesesuaian Item Dan Ujian

OUM 99

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

1. Ukuran Kestabilan

Ukuran Kestabilan ini akan menggambarkan tahap keyakinan kepada kita untuk membuatgeneralisasi skor yang akan diperoleh pelajar, sekiranya ujian ini diberi lagi sekali kepadamereka pada masa akan datang. Bagaimanapun, Ukuran Kestabilan ini akan berbezamengikut jarak masa dan pengalaman/intervensi yang dilalui pelajar/calon antara duapentadbiran ujian tersebut. Biasanya Ukuran Kestabilan adalah tinggi sekiranya jarakmasa antara dua pentadbiran ujian adalah pendek. Ini adalah disebabkan oleh, pertama,pelajar masih ingat jawapan kepada soalan-soalan ujian, dan kedua, tidak adapengalaman/intervensi (seperti latih-tubi, kelas tusyen) antara dua pentadbiran ujian ini.

Pekali korelasi Pearson

di mana:

ialah jumlah, xi ialah skor ujian kali pertama, yi ialah ujian kali kedua, x ialah min skorujian kali pertama, y ialah min skor ujian kali kedua, n ialah bilangan pelajar, sx ialahsisihan piawai skor ujian kali pertama dan sy ialah sisihan piawai skor ujian kali kedua.

2. Ukuran Kesetaraan

Ukuran Kestabilan, yang juga dipanggil “anggaran kebolehpercayaan uji-ujisemula” (test-restest estimate of reliability) boleh dikira dengan memberikanujian yang sama sekali lagi kepada kumpulan pelajar yang sama selepasujian pertama ditadbirkan, dan seterusnya, mengira pekali korelasi Pearsonantara dua/pasangan skor yang diperoleh setiap pelajar.

Ukuran Kesetaraan ini akan menggambarkan tahap keyakinan kepada kita untuk membuatgeneralisasi skor yang akan diperoleh pelajar, sekiranya mereka diberi ujian yang terdiridaripada item-item lain yang setara dengan item-item ujian yang telah diberikan. Ujianyang setara ini penting sekiranya seseorang penyelidik enggan menggunakan soalanyang sama sebagai ujian-pra dan ujian-pos (untuk mengelak daripada pelajar menghafaljawapan). Dalam hal ini, dua ujian yang setara boleh digunakan, satu sebagai ujian-pradan satu lagi sebagai ujian-pos. Selain itu, ujian yang setara juga boleh digunakan untukmenguji dua kumpulan pelajar yang berbeza pada berlainan masa.

3. Ukuran Kesetaraan dan KestabilanAda kalanya kita ingin melihat ketekalan pencapaian seseorang pelajar untuk jangkamasa yang panjang dengan menggunakan ujian yang berbeza. Justeru, kaedah yang

Berbeza daripada kaedah uji-uji semula yang menggunakan ujian yang sama,Ukuran Kesetaraan [atau Ukuran Keselarian (parallel)] dikira denganmemberikan dua (2) ujian yang berbeza tapi setara (kesamaan dari segikandungan, Jadual Spesifikasi Ujian, format soalan dan arahan menjawabserta min, varians dan interkorelasi skor) kepada kumpulan pelajar dan hariyang sama, dan seterusnya, mengira pekali korelasi Pearson antara dua/pasangan skor yang diperoleh setiap pelajar.

rxy = [ΣΣΣΣΣ (xi-x)(yi -y)] [nsxsy]

Ó

Page 11: Kesesuaian Item Dan Ujian

100 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

sesuai untuk membuat pengukuran ini ialah dengan mentadbirkan ujian kedua yang setaradengan ujian pertama (Ukuran Kesetaraan) pada suatu masa yang lain (UkuranKestabilan). Kebolehpercayaan ini, yang merangkumi Ukuran Kesetaraan dan UkuranKestabilan, dinamakan Ukuran Kesetaraan dan Kestabilan. Indeks kebolehpercayaanini boleh ditentukan oleh pekali korelasi Pearson antara dua/pasangan skor yang diperolehsetiap pelajar, iaitu skor ujian pertama dan skor ujian kedua yang ditadbirkan kemudian.

4. Ukuran Ketekalan DalamanBerbeza daripada ketiga-tiga ukuran ketekalan yang dijelaskan sebelum ini, UkuranKetekalan Dalaman boleh ditentukan dengan menggunakan sekali ujian sahaja. Salahsatu daripada kaedah yang digunakan untuk mengukur ketekalan dalaman ialah denganmembelah/memecahkan ujian kepada separuh-separuh (split-half), iaitu separuh pertamadan separuh kedua. Ukuran Ketekalan Dalaman Belah-Dua ini dapat menggambarkankesetaraan dalaman ujian, iaitu antara separuh pertama dengan separuh kedua sesuatuujian.

Justeru, Ukuran Ketekalan Dalaman Belah-Dua ini adalah hampir sama dengan UkuranKetekalan Kesetaraan, yang menggambarkan kesetaraan antara dua ujian yang berbeza.Kaedah-kaedah lain yang digunakan untuk mengukur ketekalan dalam ujian ialah kaedahKuder-Richardson dan kaedah Cronbach. Kedua-dua kaedah ini juga menggunakansekali ujian sahaja dan ukuran ketekalan dalamannya menggambarkan darjahkeseragaman (homogeneity) antara item dalam sesuatu ujian, iaitu menunjukkanhubungan/korelasi antara setiap item dengan jumlah skor ujian (Mehrens & Lehmann,1991).

(a) Ukuran Ketekalan Dalaman Belah-Dua

Ukuran Ketekalan Dalaman Belah-Dua (r ½½) boleh dikira dengan menggunakankorelasi Pearson (r) antara skor pelajar bagi separuh pertama ujian dengan skorpelajar bagi separuh kedua ujian, yang boleh dikira menggunakan rumus berikut:

di mana:

ialah jumlah, xi ialah skor separuh pertama ujian, yi ialah skor separuh keduaujian; x ialah min skor separuh pertama ujian, y ialah min skor separuh kedua ujian;n ialah bilangan pelajar, sx ialah sisihan piawai skor separuh pertama ujian dan syialah sisihan piawai skor separuh kedua ujian.

Bagaimanapun, ukuran yang diperoleh melalui kaedah belah-dua ini hanyamemberikan darjah ketakalan dalaman bagi separuh ujian sahaja. Untuk

Ukuran Kesetaraan dan Kestabilan ini akan memberikan tahap keyakinankepada kita untuk membuat generalisasi skor yang akan diperoleh pelajar,sekiranya mereka diberi ujian yang setara pada masa yang berlainan. Ujianjenis ini akan menghapuskan kesan hafalan jawapan atau kesan latih-tubisoalan ujian pertama terhadap jawapan ujian kedua, di samping menilaipencapaian pelajar selepas jangka masa yang panjang.

ΣΣΣΣΣ

r ½½ = [ΣΣΣΣΣ(xi-x)(yi -y)] [nsxsy]

Page 12: Kesesuaian Item Dan Ujian

OUM 101

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

mendapatkan darjah ketekalan dalaman bagi keseluruhan ujian (rSB), kita bolehgunakan rumus Spearman-Brown seperti beriikut:

Pekali Spearman-Brown

di mana:

r ½½ ialah pekali Ketekalan Dalaman Belah-Dua.

(b) Kaedah Kuder-RichardsonTerdapat dua (2) kaedah Kuder-Richardson yang digunakan untuk mengira UkuranKetekalan Dalaman bagi item yang berjawapan dikotomi (betul/salah), iaitu K-R 20dan K-R 21. K-R 20 digunakan sekiranya Indeks Kesukaran Item (p) berbeza bagisemua item, dan K-R 21 digunakan sekiranya indeks ini sama bagi semua item.Bagaimanapun, rumus K-R 21 adalah lebih mudah digunakan oleh guru disebabkanrumus ini tidak memerlukan banyak pengiraan. Rumus-rumus tersebut dijelaskanseperti berikut:

di mana:

k ialah bilangan item dalam ujian, ialah jumlah, p ialah kadar pelajar yang menjawabitem dengan betul (Indeks Kesukaran Item), q ialah kadar pelajar yang salahmenjawab item (q= 1-p, pq adalah varians skor item), x ialah min skor keseluruhanitem dan Sx

2 ialah ialah variance skor keseluruhan ujian.

(c) Kaedah Cronbach

Cronbach (1951) telah menggunakan pekali alfa sebagai Ukuran Ketekalan Dalaman.Kaedah ini ialah lanjutan kepada K-R 20 bagi item-item yang bukan berjawapandikotomi. Rumus bagi pekali alfa adalah sama seperti rumus bagi K-R 20, kecualipq diganti dengan Si

2, iaitu varians bagi skor item. Pekali alfa adalah amat bergunabagi item yang bukan berjawapan dikotomi, terutama item berbentuk esei yangmarkahnya boleh merangkumi julat nilai yang besar. Rumus pekali alfa adalah sepertiberikut:

ΣΣΣΣΣ

rSB = [2r ½½] [1+ r ½½ ]

K-R20 = k [1 - ΣΣΣΣΣpq] k – 1 Sx

2

K-R21 = k [1 - x(k-x)] k – 1 kSx

2

ααααα = k [1 - ΣΣΣΣΣ Si2]

k – 1 Sx2

Latihan 5.4

Diberi Ukuran Ketekalan Dalaman Belah-Dua bagi satu ujian ialah 0.80. KiraUkuran Ketekalan Dalaman bagi keseluruhan ujian.

Page 13: Kesesuaian Item Dan Ujian

102 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

5. Kebolehpercayaan Pemeriksa

Indeks Kebolehpercayaan Pemeriksa boleh dikira dengan memberikan jawapan sekumpulanpelajar yang sama kepada dua/ lebih pemeriksa. Indeks Kebolehpercayaan Pemeriksa bolehdikira dengan mencari pekali korelasi Pearson antara dua skor pemeriksa bagi setiap soalan;atau korelasi Spearman-Brown antara jumlah skor/skor min pemeriksa bagi keseluruhanujian. Kebolehpercayan Pemeriksa ini akan memberikan tahap keyakinan kepada kita untukmembuat generalisasi bahawa skor yang diberikan oleh dua/lebih pemeriksa kepada pelajaradalah sama. Kebolehpercayaan ini adalah penting untuk menyeragamkan pemberian markah,apabila skrip/jawapan ujian diperiksa oleh ramai pemeriksa.

5.3.2 Faktor yang Mempengaruhi Kebolehpercayaan

Beberapa faktor didapati mempengaruhi kebolehpercayaan ujian, termasuk panjang ujian,kehomogenan kumpulan, kesukaran item dan objektiviti jawapan. Bahagian berikutmenjelaskan bagaimana faktor ini mempengaruhi kebolehpercayaan ujian.

(1) Panjang Ujian

Kebolehpercayaan pemeriksa bermaksud ketekalan ukuran/skor yangdiberikan oleh dua atau lebih pemeriksa apabila memeriksa kertas jawapanyang sama. Kebolehpercayaan ini tidak diperlukan bagi ujian berbentukobjektif, sebab jawapan kepada setiap soalan dalam ujian bentuk ini adalahsama, iaitu perbezaan skor antara pemeriksa tidak wujud (biasanya jawapandiperiksa oleh komputer sahaja).

Rumus am Spearman-Brown ialah seperti berikut:

rSB = [Kr ][1+ (K-1)r]

di mana:

K ialah nisbah bilangan item dalam ujian baru kepada bilangan item dalam ujian asaldan r ialah pekali kebolehpercayaan ujian asal.

Bagi Ketekalan Dalaman Belah-Dua, nilai K=2, iaitu ujian baru (sebenar) ialah 2 kaliganda panjang/item ujian asal (separuh ujian sebenar) dan r= r ½½ . Sekiranya bilanganitem ditambah menjadi 3 kali ganda, iaitu K=3, dan andaikan r=0.60, maka indekskebolehpercayaan menjadi:

rSB = [Kr ] = [(3)(0.60)] = [1.80] = 1.80 = 1.80 = 0.82

[1+ (K-1)r] [1+ (3-1)(0.60)] [1+ (2)(0.60)] [1+ (1.20)] 2.20

Rumus Spearman-Brown yang digunakan untuk mengira pekali KetekalanDalaman Belah-Dua boleh digunakan juga untuk mengira indekskebolehpercayaan ujian apabila itemnya ditambah atau dikurangkan.

Page 14: Kesesuaian Item Dan Ujian

OUM 103

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Justeru, indeks kebolehpercayaan akan meningkat, sekiranya ujian bertambah panjang.Begitu juga sebaliknya, jika item asal dibuang, indeks kebolehpercayaan akan menurun.Bagaimanapun, kita perlu ingat bahawa item yang ditambah perlulah setara/seragamdengan item-item asal ujian. Sekiranya item yang tidak setara ditambah kepada ujianasal, indeks kebolehpercayaan tidak akan meningkat, dan mungkin akan menurundisebabkan oleh item-itemnya tidak lagi setara.

(2) Kehomogenan KumpulanFaktor kedua yang mempengaruhi indeks kesukaran ialah kehomogenan kumpulanpelajar/calon yang mengambil ujian. Dari segi teori, indeks kebolehpercayaan diberikanoleh rumus:

di mana Se2 adalah varians ralat dan Sx

2 adalah varians skor. Varians ralat boleh diandaikansebagai tetap, iaitu tidak berubah. Bagaimanapun, kumpulan yang lebih homogenus(dari segi keupayaan) akan memberikan varians skor (Sx

2) yang lebih kecil, sementarakumpulan yang lebih heterogenus akan memberikan varians skor yang lebih besar.Justeru, indeks kebolehpercayaan bagi kumpulan yang lebih homogenus akan menjadilebih rendah, sementara indeks kebolehpercayaan bagi kumpulan yang lebih heterogenusakan menjadi lebih tinggi, berdasarkan kepada varians skor (Sx

2).

(3) Kesukaran ItemUjian yang terdiri daripada item-item yang mudah memberi peluang kepada kebanyakanpelajar/calon untuk menjawab soalan dengan baik, yang seterusnya akan memberikanskor yang hampir sama kepada pelajar/calon. Ini akan menghasilkan varians skor yangrendah disebabkan oleh skor yang homogenus, yang seterusnya, menghasilkan indekskebolehpercayaan yang rendah. Bagi ujian yang terdiri daripada item-item yang sukar,skor pelajar/calon akan menjadi agak berbeza/heterogenus. Ini akan menghasilkanvarians skor yang besar dan seterusnya indeks kebolehpercayaan yang tinggi.Kesimpulannya, ujian yang susah akan mewujudkan kumpulan yang heterogenus, yangakan meningkatkan indeks kebolehpercayaan.

(4) Objektiviti Jawapan

Sebagaimana yang dijelaskan tentang Kebolehpercayaan Pemeriksa, item-item yangmempunyai jawapan yang lebih objektif akan mempunyai indeks kebolehpercayaan yanglebih tinggi, dan sebaliknya, item-item yang mempunyai jawapan yang lebih subjektifakan mempunyai indeks kebolehpercayaan yang lebih rendah.

r = 1 - Se2 ,

Sx2

Latihan 5.5

Diberi indeks kebolehpercayaan bagi satu ujian ialah 0.80. Kira indekskebolehpercayaan bagi ujian yang dipendekkan kepada separuh daripadaujian asal.

Page 15: Kesesuaian Item Dan Ujian

104 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

5.4 KESAHAN UJIAN

Misalnya, sesuatu alat yang dibina untuk mengukur sikap, hendaklah berupaya mengukursikap, dan bukannya konstruk lain, seperti minat atau motivasi. Bagaimanapun, perlu diingatkanbahawa sesuatu alat ukuran itu tidak semestinya memiliki kesahan untuk semua tujuan, tetapimemiliki kesahan untuk tujuan tertentu sahaja. Contohnya, ujian yang digunakan untuk tujuandiagnosis adalah tidak sah digunakan untuk tujuan penggredan. Dalam bidang bahasa,misalnya, ujian ejaan hanyalah sah, sekiranya ia benar-benar dapat mengukur kebolehanmengeja; begitu juga ujian mendengar hanyalah sah, sekiranya ia dapat mengukur kemahiranmendengar.

5.4.1 Jenis Kesahan

Terdapat banyak jenis kesahan dan pelabagai istilah telah diguna untuk menjelaskan jenis-jenis kesahan ini. Bagaimanapun, Mehrens dan Lehmann (1991) hanya menyenarai danmenjelaskan empat jenis kesahan, iaitu (1) kesahan kandungan (content validity), (2) kesahankonstruk (contruct validity), (3) kesahan muka (face validity), dan (4) kesahan hubungan-kriteria (criterion-related validity). Jenis-jenis kesahan ini dijelaskan dalam bahagian berikut.

Kesahan sesuatu alat ukuran bermaksud sejauh mana alat tersebut dapatmengukur apa yang sepatutnya diukur oleh alat tersebut (Hanna & Dettmer,2004). Justeru, ciri kesahan bagi sesuatu alat ukuran adalah amat pentingsupaya alat ukuran tersebut dapat mengukur apa yang hendak diukur.

Rajah 5.3: 4 Jenis kesahan Mehrens dan Lehmann (1991)

(1) Kesahan KandunganSalah satu tujuan ujian ialah untuk menilai apa yang telah dipelajari pelajar bagi sesuatumata pelajaran pada akhir penggal/tahun persekolahan. Bagaimanapun, ujian yangdiberikan dalam masa yang agak pendek itu tidak dapat menguji semua sukatanpelajaran. Soalan ujian hanya boleh dianggap sebagai sampel/wakil kepada sukatanpelajaran yang begitu luas.

Page 16: Kesesuaian Item Dan Ujian

OUM 105

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Beberapa kaedah boleh diguna untuk meningkatkan kesahan kandungan, seperti merujuksemula kepada buku rekod pengajaran dan juga sukatan pelajaran. Selain itu, guru bolehmenggunakan Jadual Penentuan Ujian (JPU) dan membina soalan-soalan ujian mengikutjadual tersebut. Kaedah-kaedah ini dapat memastikan soalan-soalan ujian mewakilisemua objektif pengajaran serta semua tajuk dan kemahiran yang telah diajar. Ujianbahasa, misalnya, memerlukan guru membuat persampelan yang lebih luas tentangkemahiran dan aspek bahasa yang perlu diuji, seperti kemahiran lisan, membaca, menuliskarangan, meringkaskan karangan, tatabahasa, peribahasa, kosa kata dan sebagainya.

(2) Kesahan Konstruk

Kesahan kandungan merujuk kepada sejauh mana sesuatu alat ukuran itumencakupi kandungan pelajaran yang telah ditetapkan. Kesahan kandunganadalah penting, terutama bagi ujian pencapaian, sebab markah yangdiperolehi pelajar akan menunjukkan tahap pencapaian pelajar tersebut bagikandungan pelajaran tertentu. Sekiranya soalan ujian tidak meliputisecukupnya kandungan pelajaran tersebut, penilaian terhadap pencapaianpelajar menjadi tidak sah/bais.

Sebagai contoh, alat yang dibina untuk mengukur konstruk “sabar” sepatutnya dapatmengukur konstruk ini dengan baik. Untuk memastikan alat ini dapat mengukur konstruk“sabar”, pembina item inventori ini perlu terlebih dahulu memahami maksud “tidak sabar”,“kurang sabar” dan “sabar” dan juga ciri-ciri orang yang “tidak sabar”, “kurang sabar”dan ‘sabar”. Ciri-ciri orang yang tidak sabar, kurang sabar dan sabar ini boleh didapatidaripada kajian-kajian dalam bidang psikologi atau pun daripada pengalaman sendiri.

Selepas pembina item benar-benar memahami dan menghayati ciri-ciri tersebut, barulahitem-item dibina (berasaskan kepada ciri-ciri tersebut) supaya inventori yang terhasildapat mengukur konstruk “sabar”. Justeru, sekiranya inventori ini ditadbirkan kepadaorang yang “sabar”, ia boleh mencerap ciri-ciri orang yang sabar, sebaliknya, jika inventoriini ditadbirkan kepada orang yang tidak/kurang sabar, inventori ini akan mencerap ciri-ciri orang yang tidak/kurang sabar. Inventori yang mempunyai kesahan konstruk ini akandapat mengkelaskan dengan tepat seseorang yang menjawab inventori ini kepada, samaada orang yang tidak sabar, kurang sabar atau sabar. Kesahan konstruk adalah pentingkepada ahli-ahli pendidikan dan psikologi yang ingin membuat kajian tentang konstruk.

Kesahan konstruk/gagasan merujuk kepada sejauh mana sesuatu alatukuran itu dapat mengukur sesuatu konstruk/gagasan berasaskan teoripsikologi tertentu.

Page 17: Kesesuaian Item Dan Ujian

106 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

(3) Kesahan Muka

Sebenarnya, kesahan muka bukanlah “kesahan” seperti definisinya yangkita fahami, tetapi ia lebih kepada sesuatu alat ukuran “nampak padapermukaannya” mempunyai kesahan yang tinggi. Ini bermaksud, sekalipandang, nampak alat ukuran itu sah, atau orang biasa/tidak terlatih nampakalat ini sebagai sah.

Bagaimanapun, kesahan muka mempunyai kepentingannya sendiri, mempengaruhi orangyang menjawab item inventori merasa yakin terhadap inventori tersebut. Sekiranyainventori ini dirasakan tidak sesuai, besar kemungkinan orang tidak akan menjawabitem-itemnya secara serius, skornya dirasakan tidak sah dan, dengan demikian, tidakboleh digunakan. Sebaliknya, kesahan muka juga memberikan masalah kepada kesahankonstruk dan kesahan berkaitan kriteria, sebabnya, apabila seseorang itu mengetahuiapa yang ingin diukur, dia akan memberikan jawapan yang sentiasa “positif”.

(4) Kesahan Hubungan-Kriteria

Ukuran luaran ini boleh dibahagikan kepada dua jenis, iaitu pertama, ukuran serentak(concurrent measure), iaitu apabila ukuran luaran diambil serentak dengan ukuran alat;dan kedua, ukuran ramalan (predictive measure), iaitu apabila ukuran luaran diambilselepas ukuran alat. Daripada ukuran-ukuran luaran ini, kita boleh mencari kesahanserentak dan kesahan ramalan seperti berikut.

• Kesahan Serentak

Kesahan hubungan-kriteria merujuk kepada sejauh mana sesuatu alatukuran itu dapat menghasilkan skor yang mempunyai hubungan denganbeberapa ukuran luaran (kriteria).

Sebagai contoh, sekiranya alat ukuran kecerdasan A menghasilkan skor yangmempunyai hubungan (pekali korelasi tinggi) yang kuat dengan skor daripada alatukuran kecedasan B, maka alat A dikatakan mempunyai kesahan serentak yangtinggi. Dengan demikian, alat A boleh mengganti alat B untuk mengukur kecerdasan.

• Kesahan Ramalan

Kesahan serentak merujuk kepada sejauh mana sesuatu alat ukuran itudapat menghasilkan skor yang mempunyai hubungan dengan ukurandaripada alat lain yang diambil serentak.

Kesahan ramalan merujuk kepada sejauh mana sesuatu alat ukuran itudapat menghasilkan skor yang mempunyai hubungan dengan ukurandaripada alat lain yang diambil kemudian.

Page 18: Kesesuaian Item Dan Ujian

OUM 107

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

Sebagai contoh, sekiranya ujian percubaan matematik menghasilkan markah yangmempunyai hubungan yang kuat dengan gred matematik SPM, maka ujian matematikpercubaan dikatakan mempunyai kesahan ramalan yang tinggi. Ini bermaknapencapaian pelajar dalam ujian percubaan dapat meramal keputusan SPM.

5.4.2 Kaedah Mengira Indeks Kesahan

Daripada lima kesahan ujian yang dibincangkan, kesahan kandungan dan kesahan mukatidak dapat diukur/dijelas dengan menggunakan indeks kesahan, Kedua-dua kesahan ini dapatdijelaskan secara kualitatif sahaja. Bagaimanapun, kesahan konstruk, kesahan serentak dankesahan ramalan boleh diukur dengan menggunakan pekali korelasi Pearson, iaitu pekalikorelasi antara skor alat yang dibina dengan skor kriteria yang diambil menggunakan alat lain.

Bagi kesahan ramalan, selain menggunakan pekali korelasi untuk mengukur darjah kesahan,persamaan regresi boleh digunakan untuk meramal skor kriteria. Contohnya, skor ujianpertama (x) mempunyai hubungan dengan skor ujian kedua (y) yang menghasilkan persamaanregresi y = ax + b, di mana a dan b ialah angkatap (constant). Skor ujian kedua (y) bolehdiramal oleh skor ujian pertama (x) dengan menggantikan nilai x dalam persamaan regresiini.

RUMUSAN

Tajuk ini telah menjelaskan tentang beberapa kaedah menganalisis soalan dan ujian yangperlu dibuat untuk memastikan soalan dan ujian sesuai digunakan. Analisis soalan dibuatuntuk menilai kesesuaian soalan tersebut, terutama dari segi aras kesukaran dan kuasadiskriminasinya. Seterusnya, ujian yang terdiri daripada soalan-soalan tertentu, perlu dianalisisuntuk menilai kesesuainnya bagi sesuatu tujuan tertentu. Analisis ini meliputi kebolehpercayaanujian, yang boleh menggambarkan ketekalan markah dalam pelbagai situasi. Selain itu, analisiskesahan ujian juga perlu dibuat untuk menilai sejauh mana sesuatu ujian itu dapat mengukurapa yang hendak diukur. Analisis kesahan yang dibincangkan termasuk kesahan kandungan,kesahan muka, kesahan konstruk, kesahan serentak dan kesahan ramalan. Selainmenjelaskan analisis-analisis di atas, tajuk ini juga menurunkan beberapa kaedah pengiraanuntuk mendapatkan indeks kesukaran, diskriminasi, kebolehpercayaan dan kesahan.

GLOSARI

Alfa Cronbach Indeks untuk megukur ketakalan dalaman/keseragaman item/soalan yang bukan berjawapan dikotomi.

Indeks Kesukaran Indeks untuk mengukur aras kesukaran sesuatu item, iaitunisbah calon yang memberi jawapan betul kepada jumlah

Latihan 5.6

Skor Ujian A (x) mempunyai hubungan dengan skor Ujian B (y) yangmenghasilkan persamaan regresi y = 10x – 5. Kira skor Ujian B (ramalan)sekiranya skor Ujian A ialah 9.

Page 19: Kesesuaian Item Dan Ujian

108 OUM

KESESUAIAN ITEM DAN UJIAN TAJUK 5

calon, atau markah purata dibahagikan dengan julat markahpenuh.

Indeks Diskriminasi Indeks yang dihasilkan oleh sesuatu item untuk mengukurperbezaan keupayaan pelajar, iaitu nisbah pelajar pandai yangmenjawab dengan betul ditolak nisbah pelajar lemah yangmenjawab soalan dengan betul.

Indeks Kebolehpercayaan Indeks untuk mengukur ketekalan ukuran-ukuran yangdihasilkan oleh sesuatu alat ukuran, yang boleh dikiramenggunakan pekali korelasi Pearson, Kuder-Richardsonatau alfa Cronbach.

Indeks Kesahan Indeks untuk mengukur sejauh mana sesuatu alat dapatmengukur apa yang sepatutnya diukur oleh alat tersebut, yangboleh dikira menggunakan pekali korelasi Pearson ataupersamaan regresi.

Kesahan Konstruk Kesahan dari segi sejauh mana sesuatu ujian dapatmengukur sesuatu konstruk tertentu.

Kesahan Kandungan Kesahan dari segi sejauh mana sesuatu ujian mewakilikandungan/sukatan pelajaran yang telah diajar.

Kesahan Kriteria Kesahan dari segi sejauh mana sesuatu ujian mempunyaihubungan dengan ujian lain, sama ada yang ditadbirkansecara serentak atau kemudian.

Kesahan Muka Kesahan dari segi sejauh mana sesuatu ujian dapatmengukur sesuatu konstruk tertentu seperti yangdipersepsikan oleh calon yang menduduki ujian.

UJIAN 1

(1) Apakah perbezaan antara item dengan soalan?

(2) Jelaskan maksud “indeks kesukaran item”.

(3) Apakah yang anda faham tentang “kesahan konstruk”?

UJIAN 2

(a) Jelaskan maksud “indeks diskriminasi item”.

(b) Berikan dua (2) tujuan mendiskriminasikan pelajar dalam ujian.

(c) Jadual berikut menunjukkan bilangan pelajar yang memilih jawapan bagi satu item ujianobjektif. Kira indeks kesukaran dan indeks diskriminasi item ini (B* adalah jawapan yangbetul). Adakah item ini baik?

Page 20: Kesesuaian Item Dan Ujian

OUM 109

TAJUK 5 KESESUAIAN ITEM DAN UJIAN

RUJUKAN

Cronbach, L. J. (1951). “Coefficient Alpha and the Internal Structure of Tests”. Psychometrika,16, 297-334.

Hanna, G.S. & Dettmer, P.A. (2004). Assessment for Effective Teaching: Using Context-Adaptive Planning. Boston:Pearson-Allan & Allyn and Bacon.

Mehrens, W.A. & Lehmann, I.J. (1991). Measurement and evaluation in education andpsychology (4th ed.). Chicago: Holt, Rinehart and Winston.

Moskal, Barbara et al (2002). Validity, reliability and the assessment of engineering education.Journal of Engineering Education.

Nitko, A.J. (2004). Educational Assessment of Students. Upper Saddle River, N.J.: Pearson-Merill Prentice Hall.

Thorndike, et al. (1991). Measurement and Evaluation in Psychology and Education. (5th

Edition). New York : Macmillan

Wood, D.A. (1960). Test Construction. Columbus, OH; Charles E. Merill Books, Inc.

Van Krieken, R. (1995). Writing and Administring Examinations. CITO.

Van Dalen., D.P. (1979). Understanding Educational Research. (4th ed.) McGraw-Hill. Inc.

Kategori Pelajar A B* C D Jumlah

Lemah 8 9 6 4 27

Sederhana 12 20 8 6 46

Pandai 2 23 1 1 27

Jumlah 22 52 15 11 100


Top Related