indeks kesulitan & daya pembeda

16
1 BAHAN KULIAH “METODOLOGI PENELITIAN KUANTITATIF” SEKOLAH TINGGI AGAMA ISLAM NEGERI (STAIN) PONTIANAK SEMESTER GANJIL TAHUN AKADEMIK 2013-2014 PERTEMUAN XII “ANALISIS BUTIR SECARA KLASIK: Tingkat Kesulitan, Daya Pembeda, dan Pengecoh” Dirangkum oleh: Ali Hasmy 1. Indeks/Tingkat Kesulitan (Difficulty Index/Level) Menurut Assessment Systems Corporation (2006: 3.13), Borich & Kubiszyn (2010: 229), Crocker & Algina (1986: 311), Ebel & Frisbie (1986: 231), Gulliksen (1950: 366,) Henrysson (dalam Thorndike, 1971: 139), Miller (2008: 130), Miller, Linn, & Gronlund (2009: 356), Reynolds, Livingston, & Willson (2010: 148-149), Shultz & Whitney (2005: 192), dan Thorndike (2005: 469) kesulitan butir didefinisikan sebagai proporsi dari jawaban-jawaban yang benar.Dengan demikian, menurut Ebel & Frisbie (1986: 231), semakin tinggi indeks kesulitan semakin udah butir/tes yang bersangkutan. Sayangnya jawaban benar itu dapat mencakup jawaban yang dihasilkan dari tebakan, dengan demikian proporsi jawaban benar kadang tidak menggambarkan keadaan yang sesungguhnya. Salah satu cara untuk meminimalisir hal ini adalah dengan cara memberikan distraktor yang homogen dan menarik, sehingga peserta tes yang tidak benar-benar tahu/mampu akan “terjebak” untuk memilihnya, bukan memilih kunci jawaban. Berdasarkan definisi kesulitan butir di atas, makapersamaan untuk kesulitan butir dengan skor politomus dapat dituliskan sebagai berikut: = =1 = =1 / = (1) dengan : proporsi jawaban benar atau indeks kesulitan butir ke-j. n : ukuran sampel : skor maksimal untuk butir ke-j =1 : jumlah skor butir ke-j dari peserta tes ke-i, dengan i mulai dari 1 sampai ke n. Untuk butir dengan skor dikotomus dimana skor maksimalnya = 1, maka persamaan (1) dapat direduksi menjadi:

Upload: jkpwt

Post on 24-Nov-2015

285 views

Category:

Documents


98 download

TRANSCRIPT

  • 1

    BAHAN KULIAH METODOLOGI PENELITIAN KUANTITATIF SEKOLAH TINGGI AGAMA ISLAM NEGERI (STAIN) PONTIANAK

    SEMESTER GANJIL TAHUN AKADEMIK 2013-2014

    PERTEMUAN XII

    ANALISIS BUTIR SECARA KLASIK: Tingkat Kesulitan, Daya Pembeda, dan Pengecoh

    Dirangkum oleh: Ali Hasmy

    1. Indeks/Tingkat Kesulitan (Difficulty Index/Level)

    Menurut Assessment Systems Corporation (2006: 3.13), Borich & Kubiszyn

    (2010: 229), Crocker & Algina (1986: 311), Ebel & Frisbie (1986: 231), Gulliksen (1950:

    366,) Henrysson (dalam Thorndike, 1971: 139), Miller (2008: 130), Miller, Linn, &

    Gronlund (2009: 356), Reynolds, Livingston, & Willson (2010: 148-149), Shultz &

    Whitney (2005: 192), dan Thorndike (2005: 469) kesulitan butir didefinisikan sebagai

    proporsi dari jawaban-jawaban yang benar.Dengan demikian, menurut Ebel & Frisbie

    (1986: 231), semakin tinggi indeks kesulitan semakin udah butir/tes yang bersangkutan.

    Sayangnya jawaban benar itu dapat mencakup jawaban yang dihasilkan dari tebakan,

    dengan demikian proporsi jawaban benar kadang tidak menggambarkan keadaan yang

    sesungguhnya. Salah satu cara untuk meminimalisir hal ini adalah dengan cara

    memberikan distraktor yang homogen dan menarik, sehingga peserta tes yang tidak

    benar-benar tahu/mampu akan terjebak untuk memilihnya, bukan memilih kunci

    jawaban.

    Berdasarkan definisi kesulitan butir di atas, makapersamaan untuk kesulitan

    butir dengan skor politomus dapat dituliskan sebagai berikut:

    =

    =1

    =

    =1 /

    =

    (1)

    dengan : proporsi jawaban benar atau indeks kesulitan butir ke-j.

    n : ukuran sampel

    : skor maksimal untuk butir ke-j

    =1 : jumlah skor butir ke-j dari peserta tes ke-i, dengan i mulai

    dari 1 sampai ke n.

    Untuk butir dengan skor dikotomus dimana skor maksimalnya = 1, maka

    persamaan (1) dapat direduksi menjadi:

  • 2

    =

    =1

    =

    =1

    .1=

    =1

    = . (2)

    Persamaan (2) ini dicantumkan oleh Gulliksen (1950: 366) dalam bukunya Theory of

    mental test. Dengan demikian dapat dinyatakan bahwa formula indeks kesulitan untuk

    skor dikotomus yang tercantum pada persamaan (2) sebenarnya adalah bentuk khusus

    dari formula yang dicantumkan sebelumnya pada persamaan (1).

    Persamaan (1)dan (2) di atas, jelas memperlihatkan bahwa indeks kesulitan butir

    tidak lain adalah nilai rerata pada butir tertentu (item mean). Dalam konteks populasi

    indeks kesulitan ini dapat disebut sebagai peluang peserta tes untuk sukses pada butir

    tertentu yang dapat menggunakan lambang dan khusus untuk data dikotomus ditulis

    dengan lambang . Dalam hal ini indeks kesulian butir dapat disebut sebagai

    parameter kesulitan butir (item difficulty parameter).

    Untuk kesulitan tes (p) yang didefinisikan sebagai rerata dari kesulitan butir

    (), persamaannya dapat dituliskan sebagai berikut:

    =

    =1

    . (3)

    Karena menurut Crocker & Algina (1986: 312),

    = =1 . (4)

    maka persamaan (3) dapat dituliskan menjadi,

    =

    = . (5)

    Untuk tes dengan seluruh butir memiliki skor maksimal yang sama, persamaan (5) dapat

    ditulis menjadi:

    = = .

    Hasil analisis kesulitan kemudian dapat dibandingan dengan kriteria dari Mc

    Donald (1999: 34) dan Miller (2008: 131) yang tercantum pada tabel berikut ini.

    Tabel 1. Keriteria Kesulitan

    Indeks Kesulitan Evaluasi Butir

  • 3

    1.00 Seluruh peserta tes menjawab dengan benar (terlalu mudah)

    > 0.70 - < 1.00 Kesulitan rendah (mudah)

    0.30 - 0.70 Rentang kesulitan yang umumnya dapat diterima (sedang/moderat)

    > 0.00 - < 0.30 Kesulitan tinggi

    0.00 Seluruh peserta tes menjawab dengan tidak benar (terlalu sulit)

    Dengan menggunakan kriteria pada Tabel 1, maka menurut Miller (2008: 131) titik

    tengah kesulitan adalah 0.50 guna merujuk pada distribusi normal. Hal ini sejalan

    dengan pendapat Shultz & Whitney (2005: 194) yang menyatakan bahwa trait yang

    diukur diasumsian berdistribusi normal.Menurut Reynolds, Livingston, & Willson (2010:

    149), Shultz & Whitney (2005: 192) secara umum 0.50 merupakan Tingkat Kesulitan

    Optimal/Ideal, yang mengindikasikan 50% dari peserta tes menjawab dengan benar dan

    50% peserta tes menjawab dengan tidak benar. Selain itu tingkat kesulitan optimal

    memaksimalkan variabilitas, dan tentu saja daya pembeda dan reliabilitas. Menurut

    Reynolds, Livingston, & Willson (2010: 149) Aiken pada tahun 2000 menyarankan

    rentang sebesar 0.20 sekitar tingkat kesulitan optimal yaitu antara 0,40 0,60.

    Menurut Ebel & Frisbie (1986: 121) kesulitan optimal/ideal adalah titik tengah

    antara skor ideal/sempurna (misalnya 1.00) dan the chance-level difficulty (0.50 untuk

    pilihan Benar-Salah, 0.25 untuk Pilihan Ganda dengan 4 pilihan). Dengan demikian

    kesulitan optimal/ideal untuk soal B-S adalah 0.75 dan untuk soal Pilihan Ganda dengan

    4 pilihan adalah 0.625. Hal ini sejalan dengan pendapat mereka (1986: 225) yang

    menyatakan bahwa tujuan yang terkait dengan kesulitan adalah mendapatkan skor

    yang berada di tengah antara skor ideal/sempurna (perfect score) dan skor peluang

    yang diharapkan (expected chance score).

    Meski demikian, pemilihan butir dengan kesulitan tertentu untuk digunakan

    atau tidak digunakan tergantung dari tujuan diberikannya tes. Untuk kepentingan

    seleksi digunakan butir-butir dengan kesulitan tinggi. Sedangkan pada tes hasil belajar

    diharapkan pelajar menguasai kompetensi yang diajarkan dan jika demikian tentunya

    dapat menjawab butir-butir yang diberikan. Menurut Shultz & Whitney (2005: 192)

    rentang nilai p untuk tes pengetahuan kependidikan dan ketenagakerjaan adalah sekitar

    0.50 sampai dengan 0.90. Hal ini mengakibatkan indeks kesulitan butir bila dianalisis

  • 4

    berkisar dari moderat hingga tinggi (mudah). Sedangkan untuk kepentingan yang lebih

    umum diperlukan butir yang sulit, sedang, dan juga mudah dengan proporsi tertentu.

    Butir-butir yang sulit akan memberikan tantangan bagi yang memiliki kemampuan

    tinggi, sedangkan butir-butir yang mudah memberikan kesempatan bagi yang memiliki

    kemampuan rendah untuk menampilkan kemampuannya.

    Menurut Henrysson (dalam Thorndike, 1971: 139-140), jika diperlukan indeks

    kesulitan yang memiliki derajat pengukuran interval, maka nilai p dapat diubah menjadi

    nilai z. Caranya adalah dengan mencari skor yang menjadi batas antara nilai p dan 1-p

    pada tabel kurve normal. Skor inilah kemudian yang digunakan sebagai indeks kesulitan

    yang disebut dengan indeks z. Argumentasinya adalah bahwa setiap butir/tes

    dijawab oleh peserta tes yang memiliki kemampuan dari rendah sampai tinggi. Dalam

    hal ini diasumsikan bahwa para peserta tes terdistribusi pada kontinum butir yang

    mengikuti distribusi normal. Namun nilai yang didapat dari tabel kurve normal dengan

    p = 0 sampai dengan p = 1, hasilnya tidaklah membentuk kurve normal, selain itu nilai z

    tidak seluruhnya positif, tetapi juga negatif. Agar didapat nilai yang positif, kemudian

    diusulkan penggunaan indeks atau, menurut Gulliksen (1950: 368), disebut Brolyers

    Indexdengan melakukan transformasi linier misalnya:

    = 13 + 4, atau

    = 50 + 10,

    yang secara umum dapat dituliskan sebagai berikut:

    = + .

    2. Indeks Daya Pembeda (Discriminating Power Index)

    Menurut McDonald (1999: 78),Miller (2008: 132), Miller, Linn, & Gronlund

    (2009: 357), Reynolds, Livingston, & Willson (2010: 150) diskriminasi butir memberikan

    suatu indeks atau merujuk pada derajat mengenai bagaimana suatu butir membedakan

    antara peserta tes yang mendapatkan skor tinggi dan skor rendah pada butir tes

    tertentu.Menurut Ebel & Frisbie (1986: 230) jika tujuan utama seleksi butir adalah

    untuk memaksimalkan reliabilitas tes, maka butir yang memiliki diskriminasi tinggi

    adalah butir yang harus dipilih. Berdasarkan pendapat ini dapat dinyatakan bahwa

  • 5

    terdapat korelasi positif antara daya pembeda butir-butir pada suatu tes dengan

    reliabilitas tes dimaksud. Sedangkan menurut Shultz & Whitney (2005: 192),

    sebagaimana reliabilitas merupakan syarat perlu (necessary) tapi bukan syarat cukup

    (sufficient) bagi validitas, maka variabilitas juga merupakan syarat perlu bagi daya

    pembeda butir/tes tetapi bukan syarat cukup.

    Selanjutnya Miller (2008: 135) menyatakan bahwa banyaknya peserta tes pada

    kelompok atas (yang mendapatkan skor tinggi pada suatu tes) atau kelompok bawah

    (yang mendapatkan skor rendah pada suatu tes) adalah:

    a. 50% jika n 29.

    b. 33% jika 30 n 39.

    c. 25% jika n 40.

    Namun menurut Assessment System Corporation (2006: 3.13), Reynolds, Livingston, &

    Willson (2010: 151), Kelley pada tahun 1939 menyarankan untuk menggunakan 27%

    kelompok atas dan 27% kelompok bawah. Hal yang sama juga dinyatakan oleh

    Henrysson (Thordike, 1971: 144-145) maupun Shultz & Whitney (2005: 193).

    Indeks daya pembeda butir yang dapat digunakan, menurut Borich & Kubiszyn

    (2010: 230), Miller (2008: 135) dan Thorndike (2005: 471), dapat dituliskan dengan

    persamaan berikut:

    =

    . (6)

    dengan : indeks diskriminasi butir.

    H : banyaknya peserta tes pada kelompok atas yang menjawab dengan benar.

    L : banyaknya peserta tes pada kelompok bawah yang menjawab dengan benar.

    K : banyak peserta tes pada kelompok atas/kelompok bawah.

    Persamaan (6) di atas dapat dituliskan sebagai berikut:

    =

    =

    . (7)

    Hal ini sejalan dengan pernyataan Crocker & Algina (1986: 314) bahwa indeks

    diskriminasi adalah proporsi kelompok atas yang menjawab dengan benar dikurangi

    dengan proporsi kelompok bawah yang menjawab dengan benar.

  • 6

    Berdasakan pendapat Crocker & Algina di atas, jelas terlihat hubungan antara

    indeks diskriminasi dan indeks kesulitan. Dengan memperhatikan indeks kesulitan butir

    atau proporsi jawaban benar pada butir tertentu sebagaimana yang tercantum pada

    persamaan (2) yang disubstitusikan ke persamaan (7), maka daya pembeda butir

    dengan skor dikotomus dapat dituliskan sebagai berikut:

    =

    =1

    =1

    =

    =1

    =1

    . (8)

    Sedangkan dengan memperhatikan persamaan (1) yang disubstitusikan ke persamaan

    (7), maka daya pembeda butir untuk skor politomus dapat dituliskan sebagai berikut:

    =

    =1

    .

    =1

    .=

    =1

    =1

    .. (9)

    Persamaan (9) ini juga dapat dituliskan sebagai berikut:

    =

    =

    . (10)

    Persamaan (10) mirip dengan formula dari Nitko pada tahun 2001 yang menurut

    Reynolds, Livingston, & Willson (2010: 154) adalah:

    =

    1.

    Jika dihubungankan dengan persamaan (1) dan (2), maka persamaan (8), (9), dan

    (10) secara umum dapat dituliskan sebagai berikut:

    = . (11)

    Hal ini sejalan dengan pendapat Assessment System Corporation (2006: 3.13) dan

    Johnson pada tahun 1951 yang dinyatakan oleh Reynolds, Livingston, & Willson (2010:

    152).

    Ada tiga kemungkinan yang dapat terjadi pada hasil perhitungan dengan

    menggunakan persamaan (6) sampai dengan (11). Tiga kemungkinan dimaksud disebut

    dengan tipe indeks daya pembeda, yang menurut Borich & Kubiszyn (2010: 229) adalah:

  • 7

    a. Indeks daya pembeda positif, dimana rerata kelompok atas memberikan jawaban

    benar lebih tinggi dari kelompok bawah.

    b. Indeks daya pembeda negatif, dimana rerata kelompok atas memberikan jawaban

    benar lebih rendah dari kelompok bawah.

    c. Indeks daya pembeda nol (zero), dimana rerata kelompok atas memberikan

    jawaban benar sama dengan kelompok bawah.

    Menurut Miller, Linn, & Gronlund (2009: 358-362), ada beberapa hal utama

    yang perlu diperhatikan terkait dengan indeks daya pembeda butir, yaitu:

    a. Daya pembeda butir tidak mengindikasian validitas butir.

    b. Daya pembeda butir yang rendah tidak mesti mengindikasikan butir yang

    jelek/rusak.

    c. Secara umum, analisis butir yang didasarkan pada sampel kecil hanyalah bersifat

    sangat sementara.

    Untuk daya pembeda tes (D) yang didefinisikan sebagai rerata dari daya

    pembeda butir (), dengan memperhatikan persamaan (3), (4), dan (5),

    persamaannya dapat dituliskan sebagai berikut:

    = =

    =1

    .

    Hasil analisis daya pembeda kemudian dapat dibandingan dengan kriteria dari

    Crocker & Algina (1986: 315), Ebel & Frisbie (1986: 234) yang tercantum pada tabel

    berikut ini.

    Tabel 2. Kriteria Daya Pembeda

    Indeks Diskriminasi Evaluasi Butir

    0.40 Butir yang sangat bagus/memuaskan

    0.30 - < 0.40 Cukup bagus, tidak perlu perbaikanatau perlu sedikit perbaikan

    saja

    0.20 - < 0.30 Kurang bagus dan biasanya perlu diperbaiki

    < 0.20 Butir yang jelek dan seharusnya diperbaiki total atau malah

    ditolak

  • 8

    Sedangkan dengan mengacu pada pendapat Hopkins pada tahun 1998 (Reynolds,

    Livingston, & Willson, 2010: 152) dan point b pada pendapat Miller, Linn, & Gronlund

    (2009: 358-362) yang dicantumkan sebelum ini, dapat disusun kriteria yang lebih rinci

    sebagaimana tercantum pada Tabel 3.

    Tabel 3. Kriteria Daya Pembeda Menurut Hopkins

    Indeks Diskriminasi Evaluasi Butir

    0.40 Sangat tinggi

    0.30 - < 0.40 Tinggi

    0.10 - < 0.30 Sedang

    0.00 - < 0.10 Rendah

    < 0.00 Salah kunci atau kekurangan besar lainnya

    Jika dihubungkan dengan tingkat kesulitan, untuk kepentingan secara umum,

    maka kriteria kombinasinya menurut Haladyna (2004: 228) dapat dilihat pada Tabel 4.

    Tabel 4. Kriteria Kombinasi Tingkat Kesulitan dan Daya Pembeda

    Indeks Kesulitan Indeks Daya Pembeda Evaluasi Butir

    Sedang Tinggi/Sangat Tinggi Butir yang ideal. Bank butir seharusnya

    mengandung butir-butir seperti ini.

    Sedang Rendah/Negatif Butir tidak membedakan peserta tes

    kelompok atas dan bawah dan tidak

    berkonstribusi terhadap reliabilitas secara

    signifikan. Butir seperti ini seharusnya

    direvisi atau dikeluarkan

    Tinggi Rendah/Sedang/Tinggi Butir mudah. Butir seperti ini dapat

    dipertahankan jika ahli materi yakin

    bahwa butir mengukur materi yang

    esensial.

  • 9

    Rendah Tinggi/Sangat Tinggi Meski butir sulit, tetapi dapat

    membedakan peserta tes kelompok atas

    dan kelompok bawah. Butir seperti ini

    dapat dipertahankan tetapi sebaiknya

    diperiksa ulang pada penggunaan tes

    berikutnya.

    Rendah Rendah Performansi butir seperti ini buruk dan

    seharusnya direvisi atau dikeluarkan

    Menurut Reynolds, Livingston, & Willson (2010: 153), maksimum nilai D yang

    bisa dicapai pada tingkat kesulitan tertentu adalah sebagaimana tercantum pada Tabel

    5.

    Tabel 5. Maksimum Nilai D untuk Tingkat Kesulitan Tertentu

    Tingkat Kesulitan Maksimum Nilai D

    1.00 0.00

    0.90 0.20

    0.80 0.40

    0.70 0.60

    0.60 0.70

    0.50 1.00

    0.40 0.70

    0.30 0.60

    0.20 0.40

    0.10 0.20

    0.00 0.00

    Untuk Ujian Ketuntasan (Mastery Test) atau Sensitivitas Pembelajaran

    (Instructional Sensitivity), ada beberapa formula sebagaimana yang tercantum pada

    persamaan (10) yang menurut Crocker & Algina (1986: 330), Haladyna (2004: 215),

    Reynolds, Livingston, & Willson (2010: 155-156) dapat digunakan yaitu:

  • 10

    a. Formula dari Aiken (2000) dan Popham (2000), yaitu:

    = . (12)

    b. Formula lainnya yang juga cukup populer yaituPre-to-Post Difference Index (PPDI)

    dari Cox & Vargas (1966):

    = . (13)

    c. Formula dari Aiken (2000), yaitu:

    = .

    d. Formula Skor Batas Ketuntasan (Mastery Cutoff Score) dari Brennan (1972), yaitu:

    =

    (14)

    Persamaan (14) sebenarnya sama dengan persamaan (7), hanya saja dengan

    pemaknaan yang berbeda, dimana U adalah banyaknya peserta tes dengan skor di atas

    cutoff yang menjawab dengan benar, sedangkan L adalah banyaknya peserta tes

    dengan skor di bawah cutoff yang menjawab dengan benar. Selain itu, adalah

    banyaknya peserta tes dengan skor di atas cutoff, sedangan adalah banyaknya

    peserta tes dengan skor di atas cutoff.

    Menurut Assessment Systems Corporation (2006: 3.15 & 3.17), McDonald (1999:

    231-235), selain formula di atas, dapat digunakan korelasi butir-total dan yang paling

    umum digunakan adalah korelasi product moment. Keluarga korelasi product moment

    ini menurut Hinkle, Wiersma, & Jurs (1979: 96-104), Shultz & Whitney (2005: 194)

    adalah korelasi Pearson r, Point-Biserial, Phi, Spearman.

    Untuk butir dengan skor dikotomus (binary), menurut Assessment Systems

    Corporation (1986: 3.3) dan (2006: 3.5 & 3.13), Ebel & Frisbie (1986: 230), McDonald

    (1999: 235), Reynolds, Livingston, &Willson (2010: 154), Shultz & Whitney (2005: 193),

    keluarga korelasi product moment yang dapat digunakan adalahkorelasiPoint-Biserial

    untuk item dengan skor true dichotomy dan alternatifnya yaitu korelasi Biserial untuk

    item dengan skor artificial dichotomy. Hanya saja, menurut Shultz & Whitney (2005:

    194) korelasi point-biserial selalu memberikan hasil yang lebih tinggi dibandingkan

  • 11

    dengan korelasi biserial. Hal ini dikarenakan skor untuk jawaban benar dan tidak

    benar sesungguhnya bukanlah bersifat true dichotomy, tetapi artificial. Dengan

    menggunakan korelasi biserial maka terjadi koreksi terhadap sifat artificial tersebut.

    Selain itu, Crocker & Algina (1986: 318) Lord & Novick (1968) menyatakan bahwa

    hubungan antara korelasi biserial dan point-biserial adalah:

    =

    .

    Dikarenakan Y ordinat pada kurve normal selalu lebih rendah/kecil dari maka nilai

    korelasi biserial selalu lebih besar sekitar 1/5 dari nilai korelasi point-biserial.

    Penggunaan koefisien D, korelasi Point-Biserial, dan korelasi Biserial berdasarkan

    penelitian Beuchert & Mendoza (1979), Englehart (1965), Findley (1956), dan Oosterhof

    (1976) menurut Crocker & Algina (1986: 319) dapat dirangkum sebagai berikut:

    a. Jika butir memiliki kesulitan moderat, ketiga indeks memberikan hasil yang

    relatifsama. Jika mementingkan kemudahan, gunakan indeks D, namun jika

    memerlukan signifikansi statistik, gunakan Biserial atau Point-Biserial.

    b. Jika butir memiliki kesulitan yang ekstrim, lebih baik digunakan koefisien Biserial

    jika asumsi normalitas pada trait yang dikaji berdistribusi normal.

    c. Jika peneliti menduga bahwa sampel lain nantinya (prospective group) akan

    berbeda kemampuannya dengan sampel yang digunakan sekarang (analysis group),

    maka direkomendasikan untuk menggunakan koefisien Biserial.

    d. Jika peneliti yakin bahwa sampel lain nantinya akan relatif sama kemampuannya

    dengan sampel yang digunakan sekarang, maka direkomendasikan untuk

    menggunakan koefisien Point-Biserial.

    Tetapi, menurut Henrysson (dalam Thorndike, 1971: 142-143), jika menggunakan

    variabel kriteria berupa data dikotomus maka dapat digunakan koefisien korelasi

    tetrakorik dan koefisien phi, , sedangkan jika menggunakan variabel kriteria berupa

    ranking maka dapat digunakan koefisien korelasi rank biserial.

    Berdasarkan beberapa pendapat di atas, untuk data politomus, dapat

    digunakan koefisien korelasi Poliserial sebagai pengganti koefisien korelasi Biserial, dan

    koefisien korelasi Polikorik sebagai pengganti koefisien korelasi Tetrakorik. Hanya saja

  • 12

    menurut McDonald (1999: 232) penggunaan korelasi butir-total memiliki dua masalah,

    yaitu:

    a. Jika digunakan skor total seluruh butir termasuk butir yang dikaji (item total score),

    maka hasil analisisnya bersifat semu (spurious) karena pada skor total terkandung

    skor dari butir yang dianalisis, sehingga mengandung korelasi butir dengan dirinya

    sendiri. Namun penggunaan skor total seperti ini memberikan kriteria yang sama

    bagi setiap butir yang dikaji.

    b. Jika digunakan skor total yang sudah dikurangi dengan skor butir yang dikaji (item

    reminder score) efek semunya tereliminasi, namun setiap butir memiliki kriteria

    yang berbeda.

    Dampak penggunaan item total score maupun item reminder score dapat diperkecil jika

    menggunaan butir yang semakin banyak. Menurut Shultz & Whitney (2005: 194),

    penggunaan korelasi butir-total memerlukan butir yang sebaiknya 20 dan peserta tes

    sebanyak 5-10 kali banyaknya butir. Sedangkan Crocker & Algina (1986: 317)

    menyarankan banyaknya butir 25. Untuk tes dengan butir yang sedikit, Crocker &

    Algina (1986: 317) menyarankan penggunaan korelasi point-biserial yang dikoreksi.

    Dalam kaitan daya pembeda dengan sensitivitas pembelajaran untuk kasus

    sebagaimana tercantum pada persamaan (13), menurut Crocker & Algina (1986: 330-

    331), juga dapat digunakan keluarga korelasi product moment sebagaimana yang

    disarankan oleh Berk (1980) yang diderivasi dari Saupe (1966). Untuk melakukan hal ini

    perlu diberikan pretest dan posttest pada individu yang sama. Selanjutnya skor posttest

    dikurangi dengan skor pretest pada setiap peserta tes pada setiap butirnya untuk

    mendapatkan skor perubahan (change score). Hasil pengurangan dimaksud

    menghasilkan nilai 1 (gain score), 0 (no gain), atau -1 (loss of gain). Langkah selanjutnya

    adalah menghitung total skor perubahan (change score total) dengan formula sebagai

    berikut:

    =

    dengan Y adalah skor total pada posttest X adalah skor total pada pretest.

  • 13

    Untuk menentukan daya pembeda butir dilakukan perhitungan korelasi antara skor

    perubahan pada masing-masing butir dan skor total perubahan. Hanya saja penerapan

    korelasi dengan cara seperti ini lebih mengacu pada rujukan norma (norm reference)

    dibandingkan dengan rujukan kriteria (criterion reference).

    Untuk kasus sebagaimana tercantum pada persamaan (12), menurut Crocker &

    Algina (1986: 331) Milman (1974) menyarankan penggunaan korelasi parsial atau

    regresi setapak (stepwise regression).

    3. Analisis Pengecoh (Distractor/Foil Analysis)

    Menurut Ebel & Frisbie (1986: 176), Haladyna (2004: 69 & 273), McDonald

    (1999: 19) pengecoh adalah pilihan jawaban yang keliru namun kelihatannya masuk

    akal.Sedangkan menurut Ebel & Frisbie (1986: 176), Haladyna (2004: 69), Miller (2008:

    55) pengecoh menarik bagi peserta tes yang tidak tuntas tetapi tidak membuat bingung

    bagi peserta tes yang tuntas. McDonald (1999: 19), Mehrens & Lehmann (1973: 277),

    dan Thorndike (2005: 448) selain menyebut pengecoh dengan istilah distractor juga

    menyebutnya dengan istilah foil. Tujuan dari dibuatnya suatu pengecoh (distractor atau

    foil), menurut Ebel & Frisbie (1986: 176), adalah untuk membedakan antara peserta tes

    yang tidak tuntas pada materi yang diujikan dan peserta tes yang tuntas.

    Menurut Haladyna (2004: 273) ada tiga alasan perlunya dilakukan analisis

    terhadap pengecoh. Pertama, pengecoh adalah bagian dari butir dan ia harus berguna,

    jika tidak ia sebaiknya direvisi aatu dibuang. Pengecoh yang tidak berguna akan

    berdampak buruk terhadap daya pembeda butir. Kedua, dengan penyekoran

    politomus, pengecoh yang berguna akan memberikan kontribusi terhadap penyekoran

    yang efektif, yang berdampak positif terhadap reliabilitas skor. Ketiga, dalam konteks

    psikologi kognitif, pengecoh berguna sebagai pintu masuk untuk menemukan kesalahan

    konsep pada peserta tes.

    Menurut Borich & Kubiszyn (2010: 231-234) ada beberapa hal yang perlu

    diperhatikan ketika menganalisis pengecoh, yaitu: efektivitas, salah kunci, ambiguitas,

    dan penebakan.

    a. Efektivitas (Effectivity)

    Pengecoh yang efektif menurut Borich & Kubiszyn (2010: 231-232) tidak hanya

    dipilih oleh peserta tes, tetapi harus lebih banyak dipilih oleh kelompok bawah. Hal

  • 14

    ini dikarenakan peserta tes dari kelompok atas (memiliki kemampuan yang lebih

    tinggi) semestinya hanya sedikit yang terkecoh oleh pengecoh tertentu

    dibandingkan dengan peserta tes dari kelompok bawah (memiliki kemampuan yang

    lebih rendah). Hal ini sejalan dengan pendapat Miller, Linn, & Gronlund (2009: 357)

    yang menyatakan bahwa pengecoh yang baik menarik lebih banyak peserta test

    dari kelompok bawah dibandingkan dengan kelompok atas.

    Berdasarkan dua pendapat di atas dapat dinyatakan bahwa pengecoh tidak

    berfungsi dengan baik (tidak efektif) jika tidak dipilih oleh peserta tes. Selain itu,

    meski pengecoh dipilih oleh peserta tes, ia juga dikatakan tidak efektif jikalebih

    banyak dipilih oleh peserta test dari kelompok atas dibandingkan dengan kelompok

    bawah.

    b. Salah Kunci (Miskeying)

    Menurut Borich & Kubiszyn (2010: 232-233) indikasi salah kunci terjadi jika peserta

    tes dari kelompok atas lebih banyak memilih suatu distraktor dibandingkan dengan

    pilihan yang ditetapkan sebagai kunci jawaban.

    c. Ambiguitas (Ambiguity)

    Menurut Borich & Kubiszyn (2010: 233) indikasi ambiguitas terjadi jika peserta tes

    dari kelompok atas memilih suatu distraktor kurang lebih sama frekuensinya

    dengan pilihan yang ditetapkan sebagai kunci jawaban.

    d. Penebakan (Guessing)

    Menurut Borich & Kubiszyn (2010: 233) terjadinya penebakan terindikasi dari

    peserta tes dari kelompok atas yang memilih seluruh pilihan jawaban (distraktor

    maupun pilihan yang ditetapkan sebagai kunci jawaban) dengan frekuensi yang

    relatif seimbang.

    Menurut Haladyna (2004: 218-228) metode-metode yang dapat digunakan

    untuk mengkaji performansi pengecoh pada dasarnya dapat dikelompokkan menjadi

    tiga, yaitu: menggunakan Metode Tabular, Metode Grafikal, dan Metode Statistikal.

    Metode Statistikal yang dapat digunakan adalah Statistika deskriptif dan Statistia

    Inferensial baik Parametrik maupun Nonparametrik. Adapun manfaatnya adalah: a)

    merampingkan butir yang gemuk/kelebihan pilihan jawaban, b) memperbaiki butir-butir

    tes, c) mendeteksi penyebab munculnya masalah-masalah performansi, d) kajian

  • 15

    tambahan untuk proses kognitif, e) keberbedaan fungsi pengecoh (differential

    distractor functioning).

    Referensi

    Assessment System Corporation. (2006). Usersmanual for the ITEMAN: Conventional item analysis program.

    ______________. (1986). Usersmanual for ITEMAN, RASCAL, and ASCAL. Borich, G., & Kubiszyn, T. (2010). Educational testing & measurement: Classroom application

    and practice. Danvers, MA: John Wiley & Sons, Inc. Crocker, L. & Algina, J. (1986). Introduction to classical and modern test theory. New York,

    NY: CBS College Publishing. Ebel, R. L., & Frisbie, D. A. (1986). Essentials of educational measurement. Englewood Cliffs,

    NJ: Prentice Hall, Inc. Gulliksen, H. (1950). Theory of mental tests. New York, NY: John Wiley & Sons. Inc. Haladyna, T. M. (2004). Developing and validating multiple-choice test items. (3rded.).

    Mahwah, NJ: Lawrence Erlbaum Associates, Inc. Henrysson, S. (1971). Gathering, analyzing, and using data on test items. In R. L. Thorndike

    (Ed.). Educational measurement (pp. 130-159). (2nded.). Washington, DC: American Council on Education.

    Hinkle, D. E., Wiersma, W., & Jurs, S. G. (1979). Applied statistics for the behavioral sciences.

    Boston, MA: Houghton & Mifflin Company. McDonald, R. P. (1999), Test theory: A unified treatment. Mahwah, NJ: Lawrence Erlbaum

    Associates, Publishers. Mehrens, W. A., & Lehmann, I. J. (1973). Measurement and evaluation in education and

    psychology. New York, NY: Holt, Rinehart & Winston, Inc. Miller, M. D., Linn, R. L., & Gronlund, N. E. (2009). Measurement and assessment in

    teaching. (10thed.). Upper Saddle River, NJ: Pearson Education, Inc. Miller, P. W. (2008). Measurement and teaching. Munster, IN: Patrick W. Miller &

    Associates. Reynolds, C. R., Livingston, R. B., &Willson, V. (2010). Measurement and assessment in

    education. (2nded.). Boston, MA: Pearson Education, Inc.

  • 16

    Shultz, K. S. & Whitney, D. J. (2005). Measurement theory in action: Case studies and exercises. Thousand Oaks, CA: Sage Publications, Inc.

    Thorndike, R. M. (2005). Measurement and evaluation in psychology and education. (7thed.).

    Upper Saddle River, NJ: Pearson Education, Inc.