2020.07.18 03:49

項目反応理論（IRT）

　久しぶりにタンブラーに入れているグーグルサーチコンソールの検索パフォーマンスを見たら、長年ずっと一位だった「免疫グロブリン」（笑）を超えて、「項目反応理論」が一位になっていた。

　※免疫グロブリンは、薬学検定1級を受けたときのメモがグーグルと相性が良いらしい。

　というわけで読者が検索する手間を省くためにリンクを貼っておきたい。

項目反応理論（項目応答理論）

https://cbt.e-coms.co.jp/words/irt/ 　IRT、項目反応理論。項目応答理論と言うこともある。　アメリカ版センター試験SATもこの方式で採点されていて、日本ではTOEFLやITパスポート試験で採用されている。　※この投稿を書いた2017年03月当初オンラインIQテストへの応用を前提に考えていたため、項目反応理論とCAT（Computer-adaptive...

チャーリーのタンブラー

　上記投稿を書いた2017年03月当初オンラインIQテスト（などコンピューター及びオンライン試験全般）への応用を前提に考えていたため、項目反応理論とCAT（Computer-adaptive Testing）やCBTを組み合わせることで、あんなことやこんなことができるという点ばかりを書いてしまっていた。「項目反応理論そのものについてはリンク先を参照していただきたい」と補足し、本文も項目反応理論の範囲とその応用・活用例を分離し書き換えた（2020年07月）。

　というわけで既に旧投稿を読んだ方は再度読み直していただきたい。

　項目反応理論による採点方式を採用している試験とは、試験問題の持ち帰り禁止＋解答の発表もないことがほとんど。各問題に想定正答率が設定されているため、いわゆる過去問が出回るとバランスが崩れてしまうからだろう。

　当然に答え合わせができないし、後から試験問題の確認もできないので、問題自体が間違っていても（例えば択一問題なのに該当する答えが2つあるとか）誰もワカラナイ。言い換えると正答率の低い（＝点数配分の大きい）問題ほどリスクがある。

　なぜかというと、問題と解答が公開されていない限り、「正答率が低い」ことが意味するのは、

●問題の難易度が高い。

●問題自体が間違っている。または曖昧。

のどちらかであり、後者の場合、機械採点だと是正されずずっと残ってしまいかねないので、評議会や審査委員会などを設置し、常に第三者が試験問題と解答選択肢の正当性・妥当性を検証する必要がある。

　項目反応理論自体は優れた考え方なので、運用方法を間違えなければ良い。

　想定正答率は、100人中50人が正答するという単純な確率ではなく、「視力1.0の人がこれを読み取れる確率は50％」という能力ベースのものなので、類似問題をいくつか出題することで、大凡の能力の検討がつき、同時にまぐれ当たりや当てずっぽうを検出できる。

　またうまく出題すれば、更に高い「確からしさ」が期待できる。

　例えば各問題を基礎と応用のセットで（1問として）出題し（テストレット）、それぞれの想定正答率を設定する。基礎が解らなければ応用が解けるはずもない組み合わせであれば、応用問題のまぐれ当たりを検出することができる。

　基礎：○　応用：○　最大配点

　基礎：○　応用：×　通常配点

　基礎：×　応用：○　通常配点から減点（まぐれ当たりの可能性あり）

　基礎：×　応用：×　ゼロ点

といった具合。これを個別問題にしてしまうと、基礎は基礎、応用は応用として採点が分離されるため、基礎が解らなくても応用が“当たれば”最大配点が（4択なら25％の確率で）得られてしまう。

　※「ということができる」という話であり、そういう理論だというわけではない。

　もし「基礎：×　応用：○」という受験者が数人程度ならまぐれ当たりと考えられるが、その数があまりにも多い場合（4択なら25％を超えた場合）、どういうことが考えられるだろうか。

　1つは当該応用問題の過去問の流出。もう1つは応用問題の解答選択肢が「推定」で当てられる場合とか。すなわち駄問。

　例として、基礎問題で円周の求め方を尋ねられ解らなかったとする。そして応用問題で「タイヤが3回転した時点で9.42m進んだ。このタイヤの直径は何cmと考えられるか。最も近いものを選べ」と問われ、解答選択肢が、

　□-15cm　□3/9m　□100cm　□9.42m

だった場合、直径がマイナスcmになるはずもないし、「何cmか」と聞いているのにメートルで答えるはずもないから、計算式（基礎）が解らなくても100cmだろうと見当は付く。

　問題自体は間違っていないが推定で正答できるため「ボーナス問題」と化し、能力測定には適していない。この場合、想定正答率を大幅に上回る場合は異常と見なし、動的に配点を下げるまたは除外するという対応ができる（望まれる）。

　※特定技能の資格試験のように、曖昧な理解のまま合格されると実務で他人（社会）に迷惑をかけるという試験においては拘る価値がある。

　というように、問題側の問題を統計的に検出できることもあり、出題者側が賢ければ非常に良く機能する。本来は難度（想定正答率）設定の時に気付くべきものだが、試験問題の誤りとは日常的に発生しているし、問題が起きない（起こさせない）という理想に基づくよりも、問題を即座に検出し是正できる仕組みの方が効率的に機能する。

　古典的な試験方式であっても、静的[＝人力手作業]）に検出することはできるが、予め配点が決定・公表されている場合は試験後に除外したり重み付けができないので、次回以降にしか反映できない。

　項目反応理論が採用された試験では配点も非公開ということが多い。採点不正や不透明性を疑われないように事前に仕様を説明した方がいいだろう。

　アジャスタブル、フレキシブル、スケーラブルといった動的（ダイナミック）な柔軟性が求められる時代に対応した理論と言える。

　その他、古典的なテストの問題点を解決することを目的とした理論に潜在ランク理論というものもある。

潜在ランク理論 - Wikipedia

潜在ランク理論

ja.wikipedia.org

記事人気ランキング（日）

記事人気ランキング（週）

記事人気ランキング（月）