Insights into Angoff method: results from a simulation study

本研究では、4900人のユニークな審査員団に基づくシミュレーションデータを用い、審査員が決定したAngoffカットスコアと「真の」カットスコアの差を測定することが可能となりました。 主な知見は以下の通り。

  1. (a)

    審査員の数を増やすと、パネルのカットスコアのばらつきが減少するが、より重要なことは、パネルのカットスコアの精度も向上することである。

  2. (b)

    審査員の厳しさ、および審査員の正確さは、カットスコアの精度に影響を与えるが、その影響は小さい。

得られた知見を3つのセクションに分けて議論する。 第1節ではシミュレーションの利点と適切性について、第2節では発見と研究者や実務者への示唆について、第3節では本研究の利点と限界、さらなる研究の可能な方向性について述べる。

シミュレーション

シミュレーションデータは、以前から教育評価研究において知識ベースのテストやパフォーマンスベースの評価で使用されてきた 。 しかし、基準設定の分野でのシミュレーション研究は少なく、シミュレーションされた属性に基づく裁判官の判断と、シミュレーションされた「真の値」との比較をシミュレーションしたものは見つかっていない。 この分野のこれまでのシミュレーション研究のほとんどは、実際の審査員からなるAngoffパネルが使用する学生の成績や試験のスコアをシミュレートしたものであったが、審査員の属性とそれがカットスコアの精度に与える影響を測定した研究はなかった。 B. Clauserらは、審査員の推定した正答率と受験者の正答率の経験則を比較した。 このアプローチは,重要ではあるが,特定のテストにおける受験者のパフォーマンスを推定する裁判官の能力を測定するものであり,能力と無能を区別するカットスコアを示唆する経験則はない. 本研究では、これまでの研究を基に、判定に影響を与えると想定される判定者の属性をシミュレーションすることで、この分野でのシミュレーションの利用を拡大するとともに、パネルが決定したカットスコアを「真の」カットスコアと比較することでカットスコアの精度を測定している。 このような指標を使用することは、審査員が非常に厳格でありながら全員が互いに同意している場合、その同意したカットスコアは、厳格な審査員と甘い審査員からなるバランスのとれたパネルによって得られたカットスコアよりも正確であるとみなされ、当然、大きな分散が生じることを意味します。 現実には、有能と無能を区別する真のカットスコアを知る方法がないため、標準設定が採用されているのである。 例えば、(, p. 158)は、同じ項目を推定する3つの異なるパネルが、同じ標準設定法(AngoffまたはNedelsky)を使用しても、異なる合意カットスコアと異なる評価者間分散をもたらすというデータを示しています。 他の研究(例えば、アンゴフ手順の再現性を測定するために一般化可能性分析を使用した)では、全体の誤差分散の大部分は審査員に起因すると結論付けているが、真のカットスコアからの偏差を測定するためのゴールドスタンダードは持っていない。 一般性分析は、平均値が真のスコアに非常に近いと仮定しながら、誤差の原因に基づいて行われるため、これは明らかなことです。 標準設定プロセスの精度を測定する場合、この論文で提示されたようなシミュレーション研究は、比較のための有効な基準として真のカットスコアを含むというユニークな利点があります。 しかし、審査員の属性をシミュレーションすることは有効なのだろうか。 Verheggenらは、基準設定において、個々の項目に対する審査員の個々の判断は、「審査員の固有の厳しさとその対象に関する知識」(, p. 209)を反映していることを示した。 この考え方は、文献で広く言及されている。 したがって、測定用語としては、すべての項目が等しく難しい(すなわち、難易度=0)場合、結果のカットスコアは、バイアスの合計、すなわち、審査員の厳格さとランダムエラーの合計、すなわち、正確さとその他のランダムエラーで構成されています。 これまでの研究で,専門家は非専門家よりも厳格であり,パネル内でより大きな影響力を持つとみなされていることが示唆されているため,シミュレーション・パラメータにこれらの仮定を含めることとした. 各属性が判定に与える絶対的な影響は不明であるため,各パラメータがカット スコアに与える相対的な影響を把握できるよう,標準化したパラメータ(SD ≅ 1)でシミュレー ションを構成した. すべてのシミュレーション研究と同様,本研究では,評価モデルの理解を深めるために,与えられたシミュレーション条件下での相互作用を測定していることに留意されたい。 この研究は、自然を測定するものではない。 しかし、この研究は、ある研究では特定のサンプルで観察された影響を測定し、別の研究では別のサンプルに同様の測定を適用するという点で、実際のデータを用いた研究に類似しています。 多くの場合、結果は異なりますが、その違いは、一方の研究が他方よりも正しいことを示唆するものではありません。 実データを用いた先行研究との一致から,このシミュレーション研究の結果は,この研究でシミュレーションされたものと類似した属性を持つ裁判官の集団に適用できることが示唆された。 本研究の標準設定に関する文献への貢献は,個人レベルでの裁判官の属性がパネルのカットスコアの精度に与える影響を測定したことである。 我々の知る限り、これらの関連性は、シミュレーション・データあるいは観測データを用いて、これまで測定されたことはない。 本研究の結果が先行研究と一致していること、特に結果を比較できる場合(例えば図2とHurtz and Hertzの研究、図1)、シミュレーションの仮定とパラメータの妥当性を支持し、研究結果に強度を与えている。 医学教育の文脈では、Angoffは医学知識のテスト(例:MCQ)や臨床技能試験(例:OSCE)に適用されてきた。

臨床試験(例:OSCE)では、項目数(またはステーション)は10~20であろう。 したがって、実現可能性の観点から項目数を増やすことは考えにくいので、今回の結果から、アンゴフを使用する場合、10項目で30人程度、15項目以上では最低20人の審査員が最適な組み合わせとなることが示唆される。 項目数の多いMCQの場合、80項目以上の試験でAngoffカットスコアを設定するには、最低15人の審査員で十分である(図2)。 また、項目数を増やすと、より多くのデータポイントが得られるため、信頼性が高くなり、精度が向上する可能性がある。

観測データを用いた先行研究では、Angoffの精度を判定員間の分散で決定している。 観測データを用いた他の研究では、IRTパラメータや代替手法で生成されたカットスコアを用いて、Angoff生成カットスコアの品質を推定していた 。 これらの方法は、観測データを用いる場合に適している。 本研究では、精度は、パネルのカットスコアと「真の」カットスコアの偏差によって決定された。 これらの定義の違いは、意味的なものだけではありません。 Jaliliらは、例えば、「我々は妥当性をテストするための参照標準を持っていない」と述べているように、妥当性を推定するために間接的な尺度を使用している。 彼らのエレガントな解決策は、妥当性を推定する尺度として、各項目のパネルカット得点と平均観察得点(試験官が受験者に与えた得点)の相関を用いることであった。 本研究では、シミュレーションのパラメータにカットスコアが含まれている(真のカットスコア=0)ため、妥当性を検証するための参照基準を持つことができるという利点がある。 相関が低い(r = .226, p < .0001)という結果は、相関はあるものの、パネル内SD(判定者の一致)はカットスコアの精度の分散の5.1%しか説明できないことを示している。 この知見は、誤差の原因を特定すること(一般化可能性の研究など)は、基準設定方法の信頼性を測定する有効な方法であるが、真のカットスコア、または(実データが使用されている場合は)その許容できる代理人を用いることは、妥当性の測定に非常に有用であることを示唆しているので重要である. その結果、この知見はAngoffパネルの構成の再考を支持するものとなった。

文献によると、Angoffの審査員は専門家であるべきだが、専門家はより厳しく、他の審査員に大きな影響を与える可能性があることが認識されている。 図3は、厳格さと正確さ(専門家であること)の相互作用を示すことで、この不一致に対する洞察を与えている。 この結果から、厳しすぎず、甘すぎないパネルの方が、バイアスがかかりにくく、より正確であることがわかる。 しかし、Accuracy(正確なカットスコアを推定する個人の能力)のレベルは、パネルのカットスコアの精度にわずかな影響しか与えない。 これは,カットスコアがすべての審査員のスコアの平均によって決定されることから,もっともなことである. 判定に偏りがなければ(Stringencyを一定とすれば),審査員の平均点は,審査員の数が増えるにつれて真の値に近づいていく. ストリンジェンシーが精度に与える影響は明らかであるが(シミュレーションのパラメータの1つであったため),専門家のみ,または非専門家のみのパネルは,専門家混合パネルのカットスコアよりも精度の低いカットスコアをもたらすことも示唆している(図3),特に,すでに報告されているストリンジェンシーと専門性の関係を考えると,このことは明らかである. これらの結果は、Angoffパネルの最適な構成は、専門性とストリンジェンシー(既知の場合)の観点から、多様な裁判官を含むべきであることを示唆している。 カットスコアの精度に対する審査員の同意の影響が小さい(説明される分散=5.1%)ことから,パネル内の審査員の不一致が増加する可能性があるにもかかわらず,この方法は推奨される. この知見は標準化効果量(Cohenのd = -0.083)で測定しても無視できるものであったが、測定はすべて標準化されており、2ラウンド目は審査員の影響によってのみ1ラウンド目と異なるので特に慎重に解釈する必要がある。 この結果は、2つのAngoffラウンドの間にわずかな違いがあることを示した過去の経験的研究によって支持されている。 その他の要因、たとえばテストデータの提示などは、この研究には含まれていない。 このことは、今後の研究で検証されるべきであろう。 しかし,上記のように,審査員間の一致を高めることは,カットスコアーの精度にほとんど影響を与えない可能性があり,このことは,第2ラウンドがカットスコアーの精度に影響を与えないことを説明するものである. これらの驚くべき結果から必然的に導かれる結論は、十分な数の審査員がいれば、修正前のAngoffの方法は十分に頑健であり、審査員間の議論はAngoffのカットスコアの精度を大きく向上させないということである。 このような修正は、この追加的な知識が専門知識のレベルではなく、テストパラメータのみに関連しているため、Stringencyに影響を与えることなく、判定者の精度を高める可能性が高い。

研究の限界

この研究には限界があり、主なものはシミュレーション研究であることである。 研究結果の妥当性は、データシミュレーションの妥当性、特に変数と仮定に依存する。 我々は審査員の属性がノンパラメトリックではなく、正規分布であると仮定した。 もちろん,現実の特定の試験,特定の受験者集団,特定の審査員集団は,本研究で説明したものとは異なる属性を持つ可能性があり,したがって,本研究の勧告がそれらに適用されることはないだろう. しかし、本研究のために作成された多数の(4900)ユニークなパネルと、実データから作成された過去の結果との一致を考えると、この知見は一般化できると信じるのが妥当であろう。 また、すでに説明したように、データ生成の前提は、教育測定学や標準設定の理論と実践の知見に基づくものである。 なお、シミュレーション研究として予想されるように、本研究は観測されたデータを分析するのではなく、モデルの品質を測定するものである。