Analisis butir soal ujian
menunjukkan bagaimana butir – butir soal tersebut dapat diterima sebagai bagian
dari sebuah ujian. Analisis butir menggali performa butir – butir tersebut satu
per satu terhadap kriteria eksternal atau butir – butir lainnya dalam sebuah
test (Thompson, in Hetzel, 1997) . Analisis ini akan digunakan untuk menguji
kelayakan keseluruhan butir menjadi sebuah ujian yang akan dilangsungkan. Hal
ini tampaknya sering dihindari oleh para guru Matematika kita masa kini
mengingat bahwa terkadang ujian dianggap terlalu mudah atau terlalu sukar. Ada
beberapa istilah yang diperkenalkan di dalam uji soal, selain validasi dan
reliabilitas, yakni tingkat kesukaran dan indeks diskriminasi.
Tingkat kesukaran soal (Inggris:
Item Difficulty) secara sederhana
dapat diartikan sebagai persentase siswa yang menjawab benar suatu item (butir)
soal. Wood (Hetzel, 1997) memahami bahwa semakin besar persentase yang menjawab
benar, semakin mudah pula butir soalnya.
Semakin tinggi indeks diskriminasinya maka semakin mudah butir soal
tersebut.
Secara matematis, tingkat
kesukaran dihitung sebagai hasil bagi banyaknya peserta ujian yang menjawab
benar dengan banyak keseluruhan peserta yang memberikan jawaban (termasuk yang
salah). Proporsi tersebut nanti diberikan simbol p dan disebut sebagai tingkat kesukaran.
Nilai p ini pada dasarnya adalah sebuah ukuran perilaku. Namun, ketimbang
mengartikannya dalam konteks psikologi, tingkat kesukaran soal lebih diartikan
sebagai istilah frekuensi relatif yang menjawab soal dengan benar. Cunningham
(1998) mengusulkan bahwa suatu tes yang baik adalah ketika rata – rata siswanya
menjawab 62.5% dari keseluruhan tes tersebut. Bukan berarti proporsi siswa yang
harus menjawab soal secara benar harus terpatok pada 62.5%, tetapi dari
keseluruhan tes guru harus mencobanya juga.
Prosedur analisis butir soal
ini dimaksudkan untuk memaksimalkan konsistensi reliabilitas internal walaupun
secara tidak langsung juga mempengaruhi validitas. Prosedur ini fokus pada butir – butir soal dan skor total yang
dicapai. Jadi, skor total ini dianggap penting dan berarti. Jika sebuah test
tidak valid, skor totalnya menjadi tidak berarti; hasil tesnya mungkin reliabel
tetapi tidak valid.
Menurut Cunningham, ada dua metode
primer dalam analisis butir soal yaitu (1) metode diskriminasi butir dan (2)
metode korelasi (antara butir dan skor total).
1. Metode Diskriminasi Butir
Metode diskriminasi butir
memberikan keuntungan sendiri kepada guru yang masih kurang melek computer.
Diskriminasi butir soal dinyatakan di dalam angka (nilai numeric) dengan
rentang – 1 sampai 1. Semakin besar nilai D suatu butir soal maka semakin
konsisten pula butir tersebut dengan apa yang hendak diukur oleh tes itu. Siswa
yang menjawab benar suatu butir soal dapat dianggap akan menjawab butir lainnya
dengan benar. Jika sebuah tes reliabel maka keseluruhan butir soal di dalam tes
akan mengukur hal yang sama (sesuai dengan tujuan tes itu). Perlu diperhatikan
bahwa mengganti butir soal yang nilai D -nya
rendah akan meningkatkan reliabilitas tes tersebut.
Respons
|
||||
A*
|
B
|
C
|
D
|
|
Sepuluh Tertinggi
|
6
|
1
|
2
|
0
|
Sepuluh Terendah
|
2
|
3
|
3
|
2
|
Beda
|
4
|
Catatan: * Jawaban yang benar
D = (GA - GB) / N = 4/10 = 0.4
Metode ini dimulai dengan
membuat ranking dari skor paling tinggi ke skor yang paling rendah. Kemudian
dengan memperhatikan ranking nya maka dapat dilihat siswa - siswi yang memiliki nilai lebih tinggi atau
yang lebih rendah. Dengan menggunakan ranking ini, maka ada dua kelompok skor
yaitu kelompok dengan nilai tertinggi (GA = Grup Atas) dan kelompok dengan nilai
terendah (GB = Grup Bawah), masing – masing adalah 27% dari keseluruhan
populasi. Namun demikian, Cunningham menyatakan bahwa untuk kelas yang
berisikan 25 – 35 orang disarankan untuk mengambil 10 terendah saja untuk GB
dan 10 tertinggi saja untuk GA. Alasannya adalah untuk menyesuaikan terhadap
perhitungan matematis tanpa mengganggu kestabilan nilai D.
Nilai D dapat dihitung
menggunakan rumus:
D = (GA - GB) / N
dengan N = banyak siswa di
dalam kelompok itu.
Perlu diperhatikan bahwa dengan
semakin besar nilai D maka akan semakin banyak pula siswa di GA yang menjawab
benar dan semakin sedikit siswa di GB yang menjawab salah. Hal inilah yang
diharapkan oleh para pembuat soal ujian.
Dengan demikian, nilai D = 0
memberikan kemungkinan besar bahwa setiap siswa menjawab salah atau setiap
siswa menjawab benar soal itu. Nilai D negative, walaupun kasus ini jarang
terjadi, menunjukkan bahwa lebih banyak siswa di GB yang menjawab soal itu
dengan benar. Siswa yang memiliki kemampuan rendah cenderung untuk melakukan
tebakan dan benar, sementara itu siswa yang berkemampuan tinggi cenderung
mencurigai soal tersebut sebegitu mudahnya sehingga mencari penyelesaiannya
dengan cara yang lebih sulit. Maka tidak jarang kita temui
anak yang “mampu” memiliki skor yang lebih rendah dibandingkan dengan anak yang
“kurang mampu”.
Metode ini dipandang cukup baik
dan mudah dipahami oleh para guru. Namun, untuk menguji 50 soal pada 30 orang siswa sangat perlu bagi
guru untuk menganalisis 1000 butir (20 siswa (10 setiap grup) x 50 soal) = 1000
butir. Tentu saja guru akan memerlukan banyak waktu.
<Berlanjut>
E.D.K.S, 2016
Komentar
Posting Komentar