teori ujian klasikal ctt vs teori respon item

32
TEORI UJIAN KLASIKAL (CTT) TEORI UJIAN KLASIKAL (CTT) VS VS TEORI RESPON ITEM (IRT) TEORI RESPON ITEM (IRT) NAMA AHLI KUMPULAN:- WAN AZHAN BIN WAN YAACOB P66540 WAN RAZANA BINTI WAN MUSA P66544 ERNIE NOOR FAIZAH BINTI NAIM P67594 NORHIDAYAH BINTI ADDENAN P69065 JAZAN BIN MOHD NOR P59407 GGGB6333 TEORI DALAM PENGUKURAN&PENILAIAN FAKULTI PENDIDIKAN UNIVERSITI KEBANGSAAN MALAYSIA

Upload: zarah-ahmad

Post on 14-Nov-2015

650 views

Category:

Documents


51 download

DESCRIPTION

Kursus Teori Pengukuran dan Penilaian GB6333

TRANSCRIPT

  • TEORI UJIAN KLASIKAL (CTT) VS TEORI RESPON ITEM (IRT) NAMA AHLI KUMPULAN:-

    WAN AZHAN BIN WAN YAACOBP66540 WAN RAZANA BINTI WAN MUSAP66544 ERNIE NOOR FAIZAH BINTI NAIMP67594 NORHIDAYAH BINTI ADDENANP69065 JAZAN BIN MOHD NORP59407GGGB6333TEORI DALAM PENGUKURAN&PENILAIANFAKULTI PENDIDIKANUNIVERSITI KEBANGSAAN MALAYSIA

  • SOALAN 1 a) Bincang dan bandingkan Teori Ujian Klasikal (CTT) vs Teori Respon Item (IRT).b) Limitasi CTT c) Kelebihan IRT berbanding CTT

  • RANGKA PEMBENTANGAN

    BILTOPIKSUBTOPIK1Pengenalan Teori CTTTeori IRT2Perbandingan Teori CTTTeori IRT3LimitasiTeori CTTTeori IRT4Kelebihan Teori CTTTeori IRT

  • PENGENALAN

  • TEORI UJIAN KLASIK / CLASSICAL TEST THEORY (CTT)Teori pengujian awal diperkenalkan oleh Frederick Lord berdasarkan Teori Guilford pd 1903:Kebolehan seseorang stabil sekurang-kurangnya dalam satu tempoh tertentuBoleh diukur dengan ujian

    Kebolehan diukur berdasarkan jumlah skor yang diperoleh daripada satu ujian atau bilangan item yang dijawab betul daripada satu set item ujian

  • skor yang kita beri kepada calon dipanggil skor dicerap (observed score) dan bukan skor sebenar (true score) yang menggambarkan kebolehan atau pencapaian sebenar calonSkor yang dicerap daripada sesuatu ujian mengandungi ralat (Error) Ralat di dalam sesuatu skor ujian tidak bergantung (independent) kepada skor sebenarSpearman (1903) dalam Teori Ralat Pengukuran:

  • CTT mengguna dua statistik item: kesukaran dan diskriminasi item - (Sample Dependent)

    Kebolehpercayaan (reliability) didefinisikan dalam bentuk atau ujian selari yang dikatakan mempunyai kadaran pengukuran yang skoran sebenar yang sama dan mempunyai ralat varians yang sama.TEORI UJIAN KLASIK / CLASSICAL TEST THEORY (CTT)

  • TEORI RESPON ITEM / ITEM RESPONSE THEORY (IRT)Kebolehan diukur berdasarkan kebarangkalian menjawab betul satu item dalam ujian

    IRT ialah satu model matematik yang menetapkan hubungan antara prestasi ujian yang boleh dilihat dan trait atau kebolehan yang tidak nampak

    Hubungan antara kuantiti yang nampak dan tak nampak itu digambarkan oleh suatu fungsi matematik

    Bentuk perhubungan menentukan Perbezaan model IRT Contoh: model ogif normal, model logistik (1,2,3 PL), model norma-ogive, model graded-response. model nominal response, model continuous response(Nabeel & Chin, 2013)

  • Model IRT menentukan hubungan antara pemboleh ubah tak ketara (selalunya dikonsepsikan sebagai kebolehan calon] dan kebarangkalian calon menjawab betul sesuatu item ujian

    Model-model IRT kesemuanya menganggap satu kebolehan tunggal bagi calon-calon (ditanda sebagai ) tetapi berubah ciri-ciri (parameters) mereka bagi item berlainan

    Model IRT berlainan menentukan perbezaan perhubungan parameter Contoh: Model Logistik 1-, 2- atau 3-parameter TEORI RESPON ITEM / ITEM RESPONSE THEORY (IRT)

  • Test items 1234...........L1 1101000000001000 2 1110000001000000 3 1111010010000000 . 1111110000001000 . 1110111111000000 . 1111111101100000 . 1101111111111000 . 1111101111111110 N 1110111111111101OBSERVED TEST DATA

    Plot data setiap item

    Cari keluk cocokan terbaik setiap item

    Kaedah mudah: plotkan keluk yang kelihatan

    Cari persamaan keluk

    Keluk di sebelah secocok dgn persamaan ogif; boleh dilukis dgn tangan tetapi komputer boleh lakukannya

    Kaedah ini dikenali IRT

  • MODEL RASCH (1-PARAMETER LOGISTIC)Dalam semua model IRT, Model Rasch paling sedikit ramuannya untuk menentukan apa terjadi apabila seorang calon mencuba suatu item ujian

    Hanya satu parameter kebolehan (), untuk setiap calon dan satu parameter , kesukaran item (b) untuk setiap item (Model Satu Parameter) (Bhasah, 2003)

    Apabila ditadbirkan, hasil ujian ialah interaksi antara parameter calon dengan parameter item ujian

  • MODEL RESPONSE ITEMModel IRT termudah melibatkan hanya satu parameter: kesukaran item

    Response x berlaku apabila calon mencuba untuk menjawab item

    Oleh itu x dilihat sebagai keputusan interaksi antara kebolehan calon & kesukaran item

    Kebarangkalian respons ialah perbezaan antara ukuran kebolehan calon () dan ukuran kesukaran item ()

  • Banyak model matematik berbeza diguna untuk menggambarkan IRC (Bhasah, 2003)

    Model logistic diwakili oleh:Jelas, L boleh dinyatakan sebagai fungsi perbezaan kebolehan calon dan kesukaran item: ( - ) Model Ogif Normal diwakili olehx( - )

  • Model IRT 1-PL Model IRT memberikan kebarangkalian menjawab betul suatu item atau soalan dalam sebutan interaksi antara kebolehan calon dengan parameter item Model IRT paling mudah menggabungkan hanya 2 element: kebolehan calon (ditanda oleh ) dan satu parameter iaitu kesukaran item (ditanda oleh b)pemalar, 1.7 ialah faktor skala Dikenali sebagai Model Satu Parameter Logistik (1-PL) Model ini pertama diperkenal oleh Georg RaschP() ialah kebarangkalian seseorang calon dengan proficiency atau kebolehan merespons betul suatu item beraras kesukaran b

  • Model IRT 2-PL & 3-PLModel yang membenarkan parameter a dan b berubah untuk memerihalkan item dinamakan model logistik 2 parameter. Model ini digunakan untuk mewakili skala sikap (attitude scales) dan sesetengah ujian pencapaian di mana tekaan (guessing) dianggap tiada.Parameter c digunakan untuk menggambarkan tekaan dalam item aneka pilihan. Model 3 parameter biasa digunakan untuk mewakili ujian kognitif.

  • PERBANDINGAN CTT & IRT

  • PERBANDINGAN CTT DAN IRTPERBANDINGAN CTT & IRT

    CTTIRTModelLinearTak LinearX = T + E

    Lemah (mudah untuk memenuhi keperluan data)Mempunyai kekuatan (lebih sukar untuk memenuhi keperluan data ujian- kompleks)Unidimensi (satu ciri terpendam shj diukur)Local independence (apabila ciri terpendam yang diukur tetap (constant), maka respons pelajar terhadap mana-mana pasangan item adalah bebas statistik)Peringkat ujianPeringkat Item

  • PERBANDINGAN CTT & IRT

    CTTIRTRalat pengukuran Ralat= X-TRalat= Respon Pemerhatian Respon yang diramalkanHubungan keupayaan itemTidak dinyatakanItem Characteristic Curve (ICCStatistik itemp, rp = indeks kesukaranr = indeks diskriminasi (korelasi skor item dengan skor ujian)a,b,c (bagi model 3 parameter)a = parameter diskriminasib = parameter kesukaranc = parameter tekaanKeupayaan Skor ujian (atau anggaran skor sebenar dilaporkan pada skala skor ujian)Keupayaan skor dilaporkan pada skala - ke + Invarian bagi item dan individuTiada parameter item dan individu bergantung pd sampelAda- parameter item dan individu adalah bebas @ tidak bergantung pd sampelSaiz sampelSecara umum di antara 200 ke 500Bergantung pada model IRT yang digunakan tetapi umumnya memerlukan sampel yang besar (>500)

  • Copyright Educational Testing Service, 2004. All rights reserved.*PERBANDINGAN CTT & IRT

    IRTCTTBerasaskan ModelXKetidakbergantungan parameter itemXKetidakbergantungan parameter kebolehanXRalat piawai bersyaratXAnggaran kebolehan sebenarX

    (

    (

    (

    (

    (

  • *ITEM CHARACTERISTIC CURVEbca

  • LIMITASI CTT

  • 1. STATISTIK CTT: BERGANTUNG-KUMPULANPurata aras kesukaran & julat skor kebolehan calon mempengaruhi kedua-dua statistik itu. Contoh:

    Nilai p lebih tinggi jika sampel calon mempunyai kebolehan tinggi berbanding purata aras kebolehan calon dalam populasi

    Indeks diskriminasi item cenderung lebih tinggi apabila mengguna sampel calon yang heterogeneous berbanding sampel calon yang homogeneous

  • Heterogeneity memberi kesan yang besar kepada koefisien korelasi

    Oleh itu dua statistik item tadi hanya berguna dalam memilih item dalam pembinaan ujian menggunakan sampel yang menyamai populasi

    Juga, kebolehpercayaan skor ujian berkadar langsung dengan kepelbagaian skor ujian1. STATISTIK CTT: BERGANTUNG-KUMPULAN

  • 2. BERGANTUNG-UJIANDalam CTT, perbandingan calon-calon pada satu pengukuran yang sama hanya boleh dibuat dengan keadaan calon-calon itu diuji mengguna ujian yang sama atau mengguna ujian selari Kesahan ujian meningkat apabila kesukaran ujian bersesuaian dengan aras kebolehan calon

    Kebanyakan ujian dibina sesuai dengan calon-calon berkebolehan sederhana; oleh itu ujian-ujian itu tidak menyediakan anggaran yang tepat kebolehan calon tinggi dan rendah

  • Apabila beberapa ujian pelbagai bentuk yang mempunyai aras kesukaran berbeza diguna, tugas untuk membandingkan calon menjadi semakin sukar. Skor ujian tidak lagi mencukupi.

    Dua calon yang memperoleh 50% dalam dua ujian yang berlainan kesukaran tidak boleh dianggap sama kebolehan

    Adakah calon yang mendapat skor 60% dalam satu ujian yang mudah, lebih tinggi kebolehannya daripada calon yang mendapat skor 40% dalam ujian yang sukar? - CTT tidak boleh menangani masalah ini dengan mudah 2. BERGANTUNG-UJIAN

  • 3. KEBOLEHPERCAYAAN UJIANDalam CTT, kebolehpercayaan ujian diperoleh melalui ujian bentuk selari Secara praktis, Ukuran selari sukar diperoleh

    Skor calon tidak pernah sama dalam ujian yang ditadbir kali kedua (e.g., mereka lupa, mendapat kemahiran baru, motivasi dan anxiety berubah, etc.)

  • 4. MERAMAL PRESTASI CALON CTT tidak dapat menentukan prestasi calon menggunakan satu item ujian

    Anggaran kebarangkalian seorang calon dapat menjawab betul suatu item boleh diguna untuk memadankannya dengan kebolehan calon itu

    Maklumat ini berguna kepada pembina ujian yang ingin meramalkan ciri-ciri skor ujian dalam satu atau lebih populasi calon atau untuk mereka bentuk ujian-ujian yang mempunyai ciri-ciri tertentu untuk satu populasi calon (Hambleton et al., 1991)

  • CTT & VARIANCE RALATCTT menganggap variance ralat pengukuran sama bagi semua calon (ralat tidak bergantung kepada calon)

    (sesetengah calon menunjukkan prestasi yang lebih konsisten pada sesuatu tugasan berbanding calon yang lain; kekonsistenan berubah mengikut kebolehan)

    Oleh itu, prestasi calon berkebolehan tinggi dalam beberapa bentuk ujian selari boleh jadi lebih konsisten daripada calon berkebolehan sederhana

    Apa yang diperlukan ialah model yang boleh menyediakan informasi tentang kejituan skor ujian (anggaran kebolehan), informasi spesifik skor ujian (anggaran kebolehan) dan yang bebas berubah daripada satu skor ujian (anggaran kebolehan) kepada skor ujian yang lain

  • KELEBIHAN IRT BERBANDING CTT

  • KELEBIHAN IRT BERBANDING CTTParameter item yang bebas daripada sampel di mana data diperoleh (kesukaran dan diskriminasi )Parameter kebolehan tidak bergantung kepada item tertentu dalam ujianIRT boleh menilai keberkesanan ujian bagi tahap kebolehan yang berlainanIRT boleh mengukur kebolehan kumpulan orang yang berbeza kebolehan berdasarkan satu skala yang sama

  • Set ujian yang baru boleh dibina dan dikaji tanpa perlu ditadbir dahuluIRT menyediakan kerangka penyelesaian bagi masalah pengujianIRT digunakan untuk mengenal pasti ujian yang mengandungi item-item yang berat sebelah (DIF)

    KELEBIHAN IRT BERBANDING CTT

  • RUJUKANHambleton, R.K. & Jones, R. W. 1993. Comparison of classical test theory and item response theory and their applications to test development. educational measurement issu and practice 8: 253-262Crocker, L. & Algina, J. 1997. Introduction to classical andmodern test theory. Harcourt: Barace College Publishers.Xitao. 1998. Item Response Theory and Classical Test Theory: An empirical comparison of thei item/person statistics. Journal Educational and Psychological Measurement. June 1998 V58 p 357 (25). Gale Group. Siti Rahayah Ariffin. 2008. Inovasi dalam pengukuran dan penilaian pendidikan. Fakulti Pendidikan UKM.Nabeel Abedalaziz & Chin Hai Leng. 2013. The Relationship between CTT and IRT Approaches in Analyzing Item Characteristics The Malaysian Online Journal of Educational Science Volume 1, Issue 1 m/s 64-70

    **Nama CTT tidak wujud sehingga IRT diperkenalkan oleh Frederick Lord dalam tahun 1960. Sebenarnya Lord jugalah yang memperkenalkan CTT hasil daripada teori Guilford sekitar 1903 yang mengatakan kebolehan mental manusia wujud dalam keadaan stabil pada diri setiap orang untuk suatu tempoh tertentu dalam kehidupan manusia sejak sebelum dilahirkan lagi. Oleh itu kebolehan mental, walaupun abstrak, boleh diukur dengan ujian.

    * True Score = Observed Score + Error (@ noise)

    Apabila kita menjalankan ujian, skor yang kita beri kepada calon dipanggil skor dicerap (observed score) dan bukan skor sebenar (true score) yang menggambarkan kebolehan atau pencapaian sebenar calonSkor yang dicerap daripada sesuatu ujian mengandungi ralat (Error) Ralat di dalam sesuatu skor ujian tidak bergantung (independent) kepada skor sebenar

    *Kebanyakan ujian dibina menggunakan CTT tetapi CTT dibina berdasarkan andaian dan model matematik yang lemah. 1 INDEKS KESUKARAN2 INDEKS DISKRIMINASI3 MEAN CRITERION SCORE4 VARIANS RALAT DAN VARIANS PENCERAPANKESEMUANYA BERGANTUNG KEPADA SUBJEK YANG DIUKURskor ujian bergantung kepada itemmenganggap setiap item sama kebolehpercayaantidak menerangkan interaksi antara kebolehan murid dengan kesukaran item tidak mungkin ukuran yang diberi oleh alat pengukuran yang sama berbeza bagi kumpulan subjek yang berlainan sedangkan kebolehan orang itu sama

    CTT mengambil nilai p (peratusan calon menjawab betul sesuatu item) sebagai indeks kesukaran item dan korelasi (r-point biserial atau lain-lain korelasi) antara skor item dengan jumlah skor bagi indeks diskriminasi item. Malangnya dua indeks itu bergantung kepada kumpulan calon yang menduduki ujian (bergantung kepada sampel calon). Jika sampel yang menduduki ujian mempunyai purata kebolehan yang lebih tinggi daripada populasi calon, nilai p bagi item lebih rendah daripada yang sepatutnya. Nilai indeks diskriminasi juga lebih tinggi jika sampel diambil daripada kumpulan calon berkebolehan sederhana sahaja. Ini menyebabkan item-item yang dipilih berdasarkan CTT hanya sesuai untuk mengukur kebolehan calon pada aras sederhana.

    Item dianggap mempunyai aras kesukaran tinggi jika peratusan calon yang menjawab betul item itu kecil. Calon yang boleh menjawab betul item pada aras kesukaran tinggi dianggap boleh menjawab betul item pada aras kesukaran sederhana dan rendah. Calon itu juga diharap mendapat jumlah skor ujian yang tinggi dan dianggap berkebolehan tinggi. Item yang tidak mematuhi hukum ini dianggap gagal mendiskriminasikan (membezakan) calon pandai daripada sebaliknya dan tidak boleh dipilih untuk dijadikan instrumen ujian kerana tujuan ujian, menurut teori itu, ialah untuk membezakan calon pandai daripada sebaliknya. Tujuan ujian tidak hanya itu.

    ARAS KESUKARAN ITEM: PERKADARAN (PERATUSAN) BILANGAN CALON MENJAWAB BETUL SESUATU ITEM INDEKS DISKRIMINASI ITEM: KORELASI ANTARA SKOR ITEM DENGAN JUMLAH SKOR UJIAN (CTT)

    Kebolehpercayaan (reliability) didefinisikan dalam bentuk atau ujian selari yang dikatakan mempunyai kadaran pengukuran yang skoran sebenar yang sama dan mempunyai ralat varians yang sama.

    *

    IRT menggunakan ciri-ciri item (iaitu bagaimana calon memberi respons kepada setiap item) di dalam ujian itu untuk mengukur kebolehan mental calon tanpa bergantung kepada jumlah skor ujian.

    Ekoran daripada itu, pakar mencadangkan suatu teori pengujian berasaskan model matematik yang boleh menerangkan perhubungan antara murid dengan item dengan cara menghubungkan kebarangkalian murid menjawab betul dengan tahap kebolehannya. Setelah kita mendapatkan model matematik itu, kita tadbirkan ujian yang mengandungi satu set item-item kepada sekumpulan murid yang besar bilangannya. Kita cuba cocokkan (fit) model kepada data. Kemudian kita inferkan suatu cirri matematik yang khusus bagi item seperti kesukaran dan diskriminasi. Perkara ini mula diperkenalkan oleh Lord dalam tahun 1952 diikuti oleh Birnbaum dalam tahun 1958. Mereka mendapati bahawa apabila kebarangkalian menjawab betul item diplotkan dengan tahap kebolehan murid, didapati graf berbentuk ogif (bentuk S) yang mematuhi persamaan matematik bagi fungsi taburan normal yang dikemukakan oleh Gauss yang terkenal dengan Gaussian Theory of Normal Curve (belum dapat tarikh). Penemuan ini sangat besar ertinya bagi dunia psikometrik kerana daripada situlah IRT terbina. Peraturan di atas mula diperkenalkan oleh Lord (1952). Sebelum Lord, Gauss telah menemui persamaan keluk ogif. Lord memperkenalkan persamaan model logistic bagi keluk di atas sebagai L boleh dinyatakan sebagai satu fungsi bagi perbezaan di antara kebolehan murid dengan kesukaran item yang daripadanya wujud parameter. Persamaan ini sesuai dengan persamaan keluk normal ogif oleh Gauss seperti berikutBertolak daripada persamaan di ataslah IRT berkembang pesat sehingga sekarang dengan model-model tertentu sehingga muncul mazhab-mazhab yang bertentangan lebih hebat tentangannya berbanding terhadap CTT sendiri. *Secara kontra, skor IRT adalah berdasarkan item. Respon bagi item adalah berdasarkan tahap ciri individu yag diukur dan ciri item yang selesai. Skor IRT bukan diperolehi secara merumus semua item pada skala, tetapi berdasarkan model kebarangkalian bagi setiap item. Model keberangkalian ini akan mewakilil respon tertentu terhadap tahap ciri individu yang diukur dan dilaraskan pada skala-sela yang sama, atau the logit scale. Model IRT berubah mengikut nombor kategori yang direspon (dikotomus, "ya/tidak" atau politomus, "selalu/kadang-kadang/kerap") dan beberapa parameter item anggaran. Kombinasi, anggaran ciri tahap ciri (atau theta) dan anggaran parameter item (kesukaran, diskriminasi, peluang) menentukan kebarangkalian respon tertentu seperti yang ditunjukkan pada ceruk lekuk item (item characteristic curve (ICC).

    *A visual way to check model fit is simply to compare the item characteristic curve to the data themselves. The appropriateness of the model should always be checked.

    ****Model logistik satu parameter yang lebih kenali Model Rasch sering menjadi sebutan. Ia dihasilkan oleh Georg Rasch pada tahun 1966. Model Rasch mengutamakan prinsip pengukuran objektif. Beliau merasakan pengukuran aras kecekapan pelajar harus bebas dari item yang digunakan dalam ujian. Sehubungan itu, dua item harus boleh dibandingkan tanpa merujuk kepada kumpulan pelajar yang menduduki ujian tersebut. Model ini dilihat sebagai sebahagian dari model latent trait melalui item characteristic curve yang merupakan fungsi logistik satu parameter. Ia sebenarnya merupakan kes khusus bagi model logistik dua parameter yang dihasilkan oleh Birnbaun, di mana semua item diandaikan mempunyai kuasa diskriminasi yang sama dan hanya berbeza dari segi kesukaran. Andaian ini sangat terhad kerana sekiranya item ujian yang dipilih tidak mempunyai ciri-ciri di atas maka andaian ini akan terbatal dengan sendirinya. Model Rasch mempunyai beberapa sifat yang khas yang membuatkannya menarik. Pertama, oleh kerana hanya sedikit parameter yang terlibat maka ia senang digunakan. Kedua, masalah menganggarkan parameter telah diselesaikan.

    **CTT - Lemah -Teori Ujian Klasik (CTT) berdasarkan kepada indeks kesukaran dan indeks diskriminasi item. Kedua-dua statistik ini adalah bergantung-kumpulan. Seandainya ujian-ujian tadi diprauji kepada kumpulan yang lemah, maka nilai p dan r nya menjadi rendah dan begitu pula terjadi jika sebaliknya diuji kepada kumpulan yang baik. Untuk memastikan kualiti ujian yang dibina itu berkualiti tinggi, pembina ujian hendaklah memilih sampel yang hampir sama kebolehannya dengan sampel yang bakal digunakan ujian itu nanti.

    Kekuatan IRT - Prosedur skoran ujian CTT mempunyai kelebihan yakni terlalu mudah dikendalikan (dan diterangkan) sementara skoran IRT biasanya agak memerlukan prosedur anggaran yang kompleks (dalam model Rasch , jumlah skor individu adalah statistik kecukupan bagi parameter individu).

    Kebebasan setempat (local independence) jika kita mengasingkan bahagian-bahagian faktor sepunya ujian daripada mana-mana dua item dalam ujian terlibat, kita akan mendapati baki kovarian adalah sifar.Kemerdekaan setempat membawa maksud apabila ciri terpendam yang diukur itu tetap (constant), maka respons pelajar terhadap mana-mana pasangan item adalah bebas statistik. Ini membawa maksud bahawa hanya ciri terpendam yang ukur itulah yang mempengaruhi respons pelajar terhadap item-item berkenaan. Secara matematik adalah dirumuskan bahawa bagi seseorang pelajar, kebarangkalian ia menjawab ke atas satu set item bersamaan dengan hasil darab kebarangkalian respons pelajar kepada set item berkenaan. Menurut Lord (1980) dan Lord & Norvick (1968), apabila andaian ekadimensi ini adalah benar, maka kemerdekaan setempat wujud dengan sendirinya.Andaian kedua ialah local independence yang menyatakan bahawa kebarangkalian pelajar menjawab betul sesuatu item ujian tidak dipengaruhi oleh pencapaiannya pada item-item lain dalam ujian itu. Menurut andaian ini respond item adalah tidak bersandar secara statistik untuk pelajar yang mempunyai tahap kebolehan yang tetap. Maka hanya satu kebolehan sudah cukup untuk memberikan hubungan antara dua set item ujian. Adalah penting untuk disedari bahawa local indepedance tidak bermaksud bahawa item ujian tidak mempunyai kolerasi ke atas jumlah kumpulan pelajar yang menduduki ujian itu. Item ujian yang memenuhi andaian ini juga boleh dianalisis dengan menggunakan teknik analisis faktor.*IRT: Ralat= Respon Pemerhatian Respon yang diramalkan(Ralat= respon diperolehi respon ramalan)CTT: p - peratusan calon menjawab betul sesuatu item) sebagai indeks kesukaran item , r - korelasi (r-point biserial atau lain-lain korelasi) antara skor item dengan jumlah skor bagi indeks diskriminasi item

    Invarian (tak wujud (tiada) kelainan, kepelbagaian)- ***The relationship between probability of a correct response and ability can be described mathematically by three characteristics of the curve. These three characteristics are referred to as item parameters. The parameters are shown here in the box. The first parameter is the b parameter, which is the inflection point of the curve. It represents the difficulty of the item. If there is no guessing, then this point represents the ability level at which 50% of the people answer correctly. (If there is guessing, then this point is the ability level where the probability of a correct answer is halfway between the level of guessing and 1.)The second parameter is the a parameter. It is the value of the slope at the inflection point of the curve. This slope represents the ability of the item to discriminate between people of high and low ability. The slope of the curve reaches its maximum value at the inflection point.The final parameter is the c parameter. It represents the minimal probability that an examinee will respond correctly to an item. That is, an examinee with absolutely no knowledge would still have probability c of responding correctly to the item. This probability can be described as the probability of guessing correctly, and so this parameter is known as the guessing parameter.There are four main limitations in the CTT approach that will be demonstrated in thepresent study. First is that estimates of item difficulty are group dependent. A test item functions tobe easy or difficult given a sample of examinees and these indices change when a different sampletakes the test. Another problem is that the p and r values are also dependent on the examineesample from which they are taken. This problem is similar with item difficulty estimates. The third is that ability scores of examinees are entirely test dependent. (4)The examinees ability changedepending on different occasions they take the test which results to poor consistency of the test.

    *****Ujian bentuk selari? Cth: Proses Penyamataraanjika CTT digunakan, perlu dipastikan bahawa ujian yang dibina dari satu tahun ke tahun yang lain mestilah selari antara satu sama lain. Ujian selari bermakna ciri-ciri ujian mesti sama bukan sahaja format dan isi kandungan malahan konstruk yang diukur dan statistic item serta statistic ujian mestilah juga sama. Proses menyamakan ujian dinamakan proses penyamataraan (equating). Proses penyamataraan ujian lebih tepat dilakukan menggunakan IRT berbanding CTT. Bagaimana penyamataraan dapat dilakukan jika ukuran yang diberi oleh item atau ujian bersifat stochastic melainkan berdasarkan expert judgment semata. Beberapa kaedah penyamataraan tanpa mengguna IRT telah lama diperkenalkan.

    Statistik stochastic ?

    Statistik StokastikStatistik item atau statistik ujian bergantung kepada kebolehan kumpulan calon yang menduduki ujian itu. Ini menyebabkan ukuran yang diberi oleh item atau ujian berada dalam keadaan stochastic atau terapung-apung tanpa ada titik rujukan yang boleh mengikat ukuran itu kepada suatu ukuran rujukan seperti ukuran sifar. Ukuran itu juga gagal memberi unit tertentu seperti sentimeter bagi ukuran panjang dan saat bagi ukuran masa. Ukuran yang berbentuk stochastic boleh menyebabkan anggapan seperti menyamakan 20 cm dengan 20 m atau 20 cm + 20 m = 40 cm = 40 m. Apabila suatu ujian dikemukakan dalam beberapa bentuk yang berlainan kesukaran, tugas membandingkan calon-calon ujian menjadi sukar. Jumlah skor ujian tidak mencukupi untuk dijadikan perbandingan. Bagaimana calon memberi respons kepada setiap item di dalam ujian itu mustahak diketahui.

    ****Disebabkan IRT membuat andaian yang kuat tentang tingkahlaku orang (person) dan item, ia membolehkan kita menyelesaikan masalah yang tidak dapat diselesaikan ole CTT. Misalnya, kita boleh mendapatkan parameter item yang bebas daripada sampel di mana data diperoleh. Oleh itu, statistic tentang kesukaran dan diskriminasi item tetap sama dan sesuai untuk semua kumpulan murid yang berbeza kebolehan. Jika kepada murid pandai ukuran kesukaran sesuatu item ialah 2.4 maka kepada murid kurang pandai ukuran kesukaran item yang sama adalah juga 2.4. Jika ini dapat dilakukan barulah kita boleh mengukur kebolehan kumpulan orang yang berbeza kebolehan berdasarkan satu skala yang sama.

    Kelemahan CTT- Skor ujian (ukuran kebolehan) bergantung kepada item. Ini bermakna anggaran kebolehan yang kita peroleh bagi seseorang individu tidak bergantung kepada set ujian di mana individu itu ambil. Ini sangat penting bagi mana-mana instrument pengukuran seperti ujian kerana jika andaian ini tidak dipatuhi seolah-olah kita mengukur panjang sebuah meja menggunakan pita ukur yang berlainan menghasilkan ukuran yang berlainan. Ukuran panjang meja tidak sama sekali bergantung kepada pita ukur yang digunakan untuk mengukurnya. Aspek ini sangat penting terutama dalam adaptive testing atau bank item kerana setiap individu menduduki ujian yang berbeza tetapi mengukur kebolehan yang sama.

    Dengan IRT kita boleh menilai keberkesanan ujian bagi tahap kebolehan yang berlainan. Ini menunjukkan kita dapat menentukan kebolehpercayaan skor sesuatu ujian. Ini juga bermakna kita boleh merekabentuk ujian untuk mendiskriminasikan calon pada tahap kebolehan tertentu.

    IRT allows items and examinees to be placed on the same scale. This is especially helpful in test design and score reporting.

    *We can develop new tests and investigate their properties without ever adminstering them. In fact, the use of IRT also allows us to answer any reasonable question about a test before we ever administer it. (konsep penggunaan Fungsi Maklumat Item (Item Information Function - IIF) membina ujian untuk menepati satu set jadual spesifikasi ujian. )

    IRT provides a nice framework within which to solve many testing problems.- proses penyamataraan, Prosedur ujian padanan (adaptive testing) ialah satu cubaan untuk memadankan kesukaran item dengan aras kebolehan pelajar.

    Di sini dapat disimpulkan bahawa IRT dapat digunakan untuk menentukan sama ada sesuatu soalan itu berat-sebelah antara lelaki dengan perempuan, bandar dengan luar bandar, taraf ekonomi keluarga dan sebagainya. Dalam penyelidikan item berat-sebelah, kaedah menentukan antara bukti empirikal dari rumusan, bahawa sesuatu item itu berat sebelah, istilah differential item functions (DIF) digunakan.

    *